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这 本 书 干货 太 多 ， 都 是 作者 亲身 经 历 和 经 验 之 分 享 ， 运 维 人 说 实话 ， 做 实事 ， 拒 绝 浮夸 ， 在 这 本 书 体现 得 很 好 ， 和 希望 能 引起 你 的 共鸣 。 
一 一 村 宝生 ， 人 金山 西山 居 运 维 总 监 
云 计 算是 一 个 令 人 兴奋 的 领域 ， 作 者 在 书 中 系统 、 详 尽 且 量化 地 总 结 了 一 系列 的 方法 与 准则 ， 这 些 方法 与 准则 都 在 盛大 游戏 中 进行 过 大 规模 的 应 用 实践 ， 不 仅 实 用 且 大 大 开拓 了 读者 视野 。 


更 难能可贵 的 是 ， 作 者 肖 力 是 一 位 很 注重 实践 和 乐意 分 享 的 人 。 他 发 自 内 心 、 长 期 热爱 这 份 事 业 ， 这 一 点 在 盛大 游戏 任职 期 间 表现 得 淋 满 尽 致 ， 盛 大 游戏 G 云 的 发 展 也 得 益 于 肖 力 及 其 团队 对 技术 的 深 
刻 理 解 与 不 断 探索 。 我 相信 ， 正 是 这 份 质 朴 的 热爱 和 执著 的 追求 成 就 了 这 本 极 具 含 金 量 的 专业 书籍 。 感 谢 他 为 盛大 游戏 所 做 的 贡献 ， 同 时 ， 诚 挚 分 享 此 书 给 所 有 相关 从 业 人 员 ， 和 希望 更 多 的 朋友 能 精读 此 
书 ， 从 中 得 到 更 多 启发 和 借鉴 ， 一 起 成 为 云 计 算 的 弄潮儿 。 


一 一 陈 桂 新 ， 盛 大 游戏 G 云 负责 人 、 技 术 保 障 高 级 总 监 


很 高 兴 看 到 越 来 越 多 的 朋友 加 入 云 计 算 的 大 军 ， 但 对 技术 人 员 来 说 ， 从 理论 、 实 现 到 支撑 业务 会 遇 到 不 少 的 挑战 。 肖 力 、 俊 俊 等 把 G 云 在 技术 方面 走 过 的 路 、 踩 过 的 坑 总 结 并 分 享 出 来 ， 对 有 志 于 加 入 
这 个 领域 的 同学 有 很 大 的 实用 参考 价值 。 


感谢 本 书 作 者 肖 力 、 俊 俊 、 爱 伟 和 德 禄 对 盛大 游戏 G 云 做 出 的 贡献 ，G 云 正 是 在 你 们 的 努力 下 一 步 步 成 长 起 来 ， 并 成 为 用 户 首选 的 、 高 性 价 比 的 定制 云 的 。 





冯 祯 旺 ， 盛 大 游戏 G 云 COO、 技 术 保 障 副 总 监 


在 这 个 风起云涌 的 年 代 ， 虚 拟 化 是 各 家 云 公司 的 核心 和 门槛 。 可 以 说 没有 虚拟 化 就 谈 不 上 IaaS 的 云 服 务 。 该 书 很 好 地 诠释 了 时 下 最 流行 的 Hypervisor 一 一 KVM 的 前 生 与 今世 ， 并 且 由 浅 入 深 ， 从 实战 的 角 
度 展 现 给 读者 怎么 搭建 、 使 用 、 运 维 大 规模 的 KVM 集 群 ， 非 常 值得 读者 深入 研读 。 


一 一 宋 伟 ， 人 金山 云 合伙 人 、 技 术 VP、 政 企 事业 部 总 经 理 








KVM 技 术 虽 已 出 现 多 年 ， 并 在 云 计算 浪潮 中 发 挥 重 要 作用 ， 但 相关 技术 深度 实践 的 书籍 并 不 多 见 。 本 书 作者 为 国内 KVM 技 术 早期 研究 者 及 实践 者 之 一 ， 本 书 内 容 由 浅 入 深 、 图 文 并 茂 ， 适 合 各 种 级 别 的 
KVM 技 术 人 员 查阅 学 习 。 








一 一 萧 田 国 ， 触 控 科 技 运 维 总 监 、InfoQ 人 金牌 专栏 《高 效 运 维 最 佳 实践 》 作 者 
不 管 你 是 否 承认 云 时 代 已 经 来 临 ，VMware、Xen、KVM、Docker 等 虚拟 机 技术 层出不穷 ，KVM 作 为 内 核 级 的 虚拟 化 技术 ， 一 直 受 到 很 多 工程 师 的 青 昧 ， 不 管 是 性 能 还 是 安全 性 都 算是 其 中 的 佼佼 者 。 


本 书 作者 有 多 年 KVM 运 维 实践 经 验 ， 把 自己 对 KVM 的 理解 及 工作 中 遇 到 的 问题 ， 通 过 这 本 书 深入 浅 出 地 告诉 大 家 ， 特 别 是 还 介绍 了 Ceph 和 OpenStack 等 案例 ， 希 望 大 家 看 完 这 本 书后 可 以 对 KVM 有 一 个 
新 的 认识 ， 对 虚拟 化 技术 有 一 个 新 的 认识 。 


一 一 南非 坟 蛛 ， 开 源 爱 好 者 


认识 肖 力 已 经 很 长 时 间 ， 从 盛大 游戏 时 期 参与 建设 盛大 G 云 的 前 身 ， 到 如 今 在 西山 居 从 事 游戏 虚拟 化 工作 ， 肖 力 是 我 在 业界 见 过 为 数 不 多 的 既 有 实 操 能 力 ， 又 有 宏观 格局 ， 同 时 具备 海量 运 维 经 验 的 云 
计算 从 业者 。 作 为 国内 最 早 一 批 EKVM 实 践 者 ， 本 书 是 肖 力 多 年 实战 经 验 和 思考 的 积累 ， 站 在 应 用 者 的 角度 剖析 了 利用 多 VM 建 设 私有 云 平 台 的 过 程 和 经 验 ， 这 本 书 不 仅 适合 KVM 爱 好 者 ， 对 于 所 有 的 云 计算 
爱好 者 和 从 业 人 员 都 大 有 神 益 ， 郑 重 推荐 。 


一 一 吴 硕 ， 阿 里 云 多 媒体 云 总 经 理 ， 兼 通用 业务 总 监 


现在 是 思维 横行 的 时 代 ， 我 们 每 天 在 微 博 和 朋友 圈 刷 着 各 种 信息 ， 很 容易 变 得 浮躁 。 认 识 老 肖 快 十 年 了 吧 ， 从 盛大 到 西山 居 ， 一 直 在 踏 踏 实 实地 研究 虚拟 化 相关 领域 ， 可 以 说 在 老 肖 身 上 能 看 到 互联 网 
运 维 圈子 里 出 来 的 人 所 固有 的 执着 与 沉静 。 


其 实 ， 现 在 这 类 技术 书籍 很 多 ， 但 这 本 书 的 宝贵 之 处 在 于 是 一 群 互联 网 资深 匠 者 ， 以 真诚 与 严谨 的 方式 ， 对 待 自己 孩子 般 地 去 雕琢 技术 细节 ， 里 面 珍贵 的 经 验 或 许可 以 帮助 我 们 少 踩 很 多 坑 。 而 更 重要 
的 是 ， 你 在 这 里 收获 的 不 仅仅 是 技术 ， 还 有 互联 网 资深 老兵 的 经 验 和 感悟 。 本 书 是 适合 从 事 互联 网 行业 以 及 服务 器 领域 的 技术 工程 师 们 仔细 研读 的 一 部 作品 。 


一 一 李刚 ， 浪 潮 互联 网 行业 部 技术 总 监 
随 着 近 些 年 互联 网 的 发 展 ， 虚 拟 化 技术 的 日 益 成 熟 ， 虚 拟 化 和 云 也 逐步 被 大 家 接受 和 应 用 。 


伴随 需求 的 增长 ， 公 有 云 厂商 也 不 断 崛 起 和 扩大 。 海 外 的 亚 马 进 云 、RackSpace、 谷 歌 云 、 微 软 云 ， 都 在 拓展 中 国 市 场 ; 国内 的 阿里 云 、 金 山 云 、 盛 大 云 、 腾 讯 云 、UCloud 也 日 渐 半 大 ， 还 有 百花 齐 放 的 
私有 云 ， 甚 至 近 两 年 流行 的 容器 技术 ， 这 些 现象 向 我 们 暗示 着 未 来 的 技术 走向 。 


虚拟 化 作为 云 服 务 的 基石 ， 其 重要 性 不 言 而 喻 。 或 许 你 很 早 就 知道 VMware ， 然 后 可 能 你 开始 听 说 Xen/Citrix、Hyper-V。 没 错 ， 然 后 KVM 横 空 出 世 ， 一 发 不 可 收拾 
相信 现在 的 运 维 、 开 发 或 测试 人 员 ， 或 多 或 少 会 用 到 虚拟 化 。 无 论 你 使 用 哪 种 虚拟 化 方案 ，KVM 作 为 当下 主流 的 虚拟 化 方案 都 值得 你 去 了 解 和 学 习 。 
肖 力 同学 专注 于 虚拟 化 工作 多 年 ， 有 着 极其 丰富 的 实战 经 验 。 善 于 总 结 和 分 享 的 他 ， 提 笔 撰 写本 书 必定 会 成 为 KVM 运 维 技术 的 经 典 之 作 。 


本 书 涵盖 知识 面 非常 广 ， 能 很 好 地 拆 分 讲解 并 实现 由 浅 入 深 ， 可 用 “从 入 门 到 精通 ”来 形容 。 开 篇 介绍 了 虚拟 化 选 型 和 KVM 的 发 展 史 ， 让 读者 很 容易 融入 进来 ; 接 下 来 ， 很 贴切 地 从 “第 一 台 虚 拟 
机 ”开始 动手 实战 ; 然后 ， 分 类 解读 各 种 虚拟 化 技术 及 应 用 场景 、 怎 样 做 资源 控制 ; 而 后 接地 气 地 介绍 了 物理 机 转换 到 虚拟 机 的 实践 以 及 桌面 虚拟 化 实践 。 实 现 了 从 技术 的 基本 介绍 深入 到 “你 想 用 ， 怎 么 
做 ”的 自然 延伸 。 


第 二 篇 介绍 分 布 式 文件 系统 ， 是 云 平 台 的 另 一 个 基础 组 件 ， 和 KVM 密 不 可 分 。 文 中 详细 介绍 了 各 大 主流 分 布 式 存储 系统 与 KVM 的 结合 使 用 ， 分 布 式 存 储 完善 KVM 的 健壮 性 ， 同 时 保证 数据 的 安全 性 。 
随后 ， 高 大 上 地 介绍 了 主流 的 KVM 管 理 平台 ， 以 及 虚拟 化 项 目 实施 的 实践 经 验 分 享 。 本 书 内 容 丰 富 精彩 、 层 次 清晰 ， 无 论 初学 者 还 是 “老司 机 ”， 都 能 从 中 受益 。 


— EV, HEROS hi A 
“基石 ”这 个 词 ， 可 以 形象 地 描述 开源 诬 拟 化 技术 对 互联 网 的 价值 ， 也 代表 着 互联 网 基础 设施 技术 的 未 来 。 但 “开源 ”对 普通 的 技术 人 员 来 说 ， 意 味 着 需要 在 缺乏 路 标的 海洋 中 航行 。 


这 本 书 难得 之 处 在 于 ， 是 由 一 群 奋战 在 互联 网 第 一 线 的 牛人 总 结 的 经 验 宝典 ， 本 书 的 内 容 ， 让 我 不 断 回想 起 多 年 来 和 各 个 互联 网 公司 的 小 伙伴 们 在 虚拟 化 技术 实验 、 部 署 、 侦 错 、 管 理 过 程 中 不 下 几 百 
次 的 各 种 研讨 ， 历 历 在 目 。 他 们 成 功 运营 着 成 千 上 万 台 的 服务 器 ， 处 理 上 亿 客户 的 海量 业务 请 求 ， 他 们 所 做 的 技术 探索 ， 在 目前 的 互联 网 行业 具有 广泛 的 代表 性 和 实用 性 。 


而 今天 ， 有 柱 他 们 能 够 把 自己 的 经 验 和 体会 全 面 地 分 享 ， 全 都 是 干货 。 我 想 ， 这 就 是 互联 网 所 棠 尚 的 开放 精神 吧 。 这 本 书 的 作者 和 读者 ， 以 及 这 一 代 在 互联 网 开源 技术 领域 勤 硒 工作 的 人 们 ， 将 会 构成 
中 国 互联 网 基础 架构 技术 的 基石 。 


一 一 陆 晴 ， 英 特 尔 互联 网 及 云 计算 业务 部 经 理 


知 其 因 ， 晓 其 理 ; 漫步 在 云端 ， 然 不 知 处 处 都 是 虚无 绿 纵 的 浮夸 ; 落地 、 上 云 都 离 不 开 底层 技术 的 支持 ， 一 线 大 量 实战 经 验 的 总 结 是 对 重 直 领域 最 好 的 诠释 。 这 本 书 恰恰 是 这 一 领域 的 佼佼 者 ， 深 入 
全 面 并 包含 大 量 实践 ， 不 仅 能 帮助 我 们 晓 其 理 ， 一 步 步 学 习 虚 拟 机 技术 ， 而且 能 帮助 我 们 快速 将 云 落 地 。 


一 一 刘 宇 ， 西 山居 运 维 架构 师 


基于 KVM 的 虚拟 化 方案 在 业界 已 应 用 多 年 ， 而 且 越 来 越 多 的 云 计算 服务 商 使 用 该 方案 对 外 提供 服务 ， 这 对 运 维 人 员 来 说 是 一 个 大 的 挑战 ， 因 为 国内 还 没有 一 本 关于 KVM 运 维 实践 的 权威 的 书籍 ， 大 部 分 
的 问题 都 是 靠 运 维 人 员 自 己 摸索 ， 不 成 体系 。 这 本 书 的 出 版 对 从 事 KVM 虚 拟 化 方案 的 运 维 人 员 来 说 是 个 福音 ， 从 内 容 看 ， 作 者 很 用 心 ， 而 且 对 运 维和 从 事 虚 拟 化 平台 开发 的 人 员 也 有 很 好 的 参考 作用 ， 相 信 
此 书 的 出 版 能 推动 我 国 虚拟 化 乃至 云 计 算 方面 的 运 维 水 平和 国际 接轨 。 


一 一 叶 理 灯 ，UCloud 云 主机 开发 部 经 理 


得 知 力 哥 要 写 一 本 关于 KVM 的 书 ， 我 的 第 一 感觉 是 国内 做 KVM 人 有 福 了 。 当 年 我 和 力 哥 一 起 搞 KVM 的 时 候 ， 就 深 感 他 功底 扎实 ， 思 维 绩 密 ， 而 且 动 手 能 力 快 得 惊人 。 后 来 ， 我 转向 PaaS 领 域 ， 力 哥 又 不 
间断 地 在 KVM 上 深耕 数 载 ， 如 今 已 是 该 领域 的 专家 。 相 信 无 论 是 庶 拟 化 领域 的 新 手 还 是 资深 从 业 人 员 ， 都 能 从 他 的 书 中 得 到 很 多 借鉴 。 


一 一 刘晓光 ，Cloud Foundry 工 程 师 
从 力 哥 的 博客 和 “KVM 虚 拟 化 实践 ”的 公众 号 就 可 以 看 出 这 是 一 位 注重 实践 、 乐 于 分 享 、 很 有 互联 网 精神 的 人 。 
实践 出 真知 ， 本 书 全 面 性 佳 、 实 战 性 强 ， 相 信 对 KVM 有 兴趣 以 及 正在 做 KVM 相 关 虚 拟 化 、 云 计算 相关 的 兄弟 来 说 必定 会 备 感 亲切 ， 喜 爱 有 加 ， 强 烈 推荐 
一 一 秦 洁 ， 安 居 客 运 维 负责 人 


在 虚拟 化 道路 上 ， 选 型 KVM 是 一 个 深思 熟 虑 的 决定 ， 通 过 小 规模 部 署 验 证 ， 最 终 大 规模 部 署 到 生产 环境 中 。 在 虚拟 化 的 道路 上 ， 我 们 学 习 到 很 多 ， 想 要 尽 可 能 和 大 家 去 分 享 。 本 书 将 会 给 大 家 带 来 区 VM 
在 生产 环境 中 的 、 资 深 运 维 角 度 所 理解 的 最 佳 实践 。 





云 计算 改变 了 传统 运 维 的 思维 方式 ， 短 短 几 分 钟 可 以 实现 快速 部 署 ， 扩 容 生 产业 务 。 想 要 通过 KVM 庶 拟 化 技术 结合 存储 构建 一 个 稳定 、 高 效 的 生产 集群 ， 支 撑 业 务 弹 性 伸缩 ， 这 本 书 不 可 不 读 。 
一 一 杨 树林 ， 动 视 SRE 


说 来 有 缘 ， 肖 见 的 这 本 书 还 算是 我 衬 的 线 。 自 知 我 在 KVM 方 面 并 非 专 家 ， 因 此 不 敢 多 加 点 评 。 我 和 肖 兄 认识 的 时 间 并 不 长 ， 但 从 肖 兄 的 微 信 公众 号 分 享 的 持续 性 可 见 他 对 知识 积累 的 专注 和 专业 ， 让 我 
非常 敬佩 ， 也 让 我 相信 此 书 绝对 能 成 为 国内 多 VM 领 域 的 匣 峰 之 作 ， 对 诸多 同行 们 有 所 帮助 。 


一 一 叶 金 荣 ，http://imysql.com 创 始 人 ，Oracle ACE (MySQL) 




















目前 ， 国 内 新 一 代 的 公有 云 底 层 采 用 的 都 是 KVM ， 据 笔者 了 解 ， 国 内 原来 一 些 采 用 Xen 的 公有 云 也 逐步 在 向 KVM 迁移 。 许 多 企业 的 私有 云 项 目 招标 中 ， 已 经 明确 要 求 使 用 KVM。 在 全 球 范围 
内 ，OpenStack 就 是 云 建设 的 标准 ， 而 当前 OpenStack 底 层 默 认 就 是 KVM。 经 过 几 年 的 快速 发 展 ，KVM 技 术 已 经 非常 成 熟 稳定 ， 在 任何 Linux 发 行 版 中 ，KVM 都 是 标 配 。 虚 拟 化 已 经 成 为 一 项 必 备 的 技术 
技能 ， 而 学 习 Linux 就 必须 学 习 KVM 。 



























































为 什么 写 这 本 书 














2009 年 ， 当 虚拟 化 在 互联 网 业内 鲜 有 使 用 时 ， 我 们 虚拟 化 小 组 在 国内 已 经 在 生产 环境 率先 开始 KVM 虚 拟 化 技术 的 探索 。 通 过 实施 虚拟 化 ， 我 们 几 年 内 为 公司 节省 了 上 亿 元 的 运营 成 本 ， 帮 助 公司 多 个 处 
于 生命 周期 末 的 游戏 项 目 实现 扭亏 为 盈 。 












































当时 ，KVM 还 是 一 个 小 众 产品 ， 国 内 文档 较 少 ， 我 们 只 能 通过 钻研 国外 的 英文 资料 甚至 阅读 源 代码 来 学 习 。RedHat 是 KVM 的 重要 支持 者 ， 因 此 与 其 公司 RHEL 系 统 同 源 的 CentOS 成 为 了 研究 KVM 的 重 
要 资料 。 从 当时 刚 发 布 的 CentOS 5.5 版 本 开始 ,我 们 一 路 追随 CentOS 系 统 的 升级 ， 每 有 一 个 版 本 发 布 ， 我 们 都 要 测试 评估 新 的 YM 虚拟 化 特性 ， 然 后 逐步 在 生产 环境 部 署 ， 这 样 的 工作 方法 一 直 持 续 到 最 
新 的 CentOS 6.6 及 CentOS 7.1。 这 也 是 我 们 小 组 人 员 快 速成 长 的 一 个 阶段 ， 我 们 对 KVM 技 术 的 热爱 一 直 保持 了 下 来 ， 我 们 在 周围 普及 KVM 技 术 的 热情 一 直 没 有 改变 。 






































































































































时 至 今日 ，KVM 经 过 几 年 的 快速 发 展 ， 已 经 成 为 了 最 炙手可热 的 虚拟 化 引擎 ， 国 内 新 一 代 的 公有 云 全 部 选择 了 KVM。 而 与 KVM 如 火 如 茶 的 发 展 形成 鲜明 对 比 的 是 中 文 资料 依然 匮乏 ， 尤 其 是 介绍 实践 
经 验 的 资料 。 在 我 们 周围 和 各 种 技术 论坛 上 ， 经 常 碰 到 一 些 运 维 工 程 师 ， 在 实施 一 个 KVM 虚 拟 化 项 目 时 ， 不 知道 从 哪里 开始 ; 也 碰 到 对 KVM 技 术 感 兴趣 的 运 维 人 员 在 重复 问 一 些 相近 的 问题 。 于 是 ， 我 们 几 
个 人 萌生 了 一 个 想法 ， 为 什么 不 把 我 们 的 KVM 项 目 运 维 实践 经 验 一 一 记录 下 来 ， 分 享 给 大 家 。 与 此 同时 ， 我 们 也 犹 殉 过 ， 因 为 有 许多 问题 我 们 也 并 未 完全 理解 。 但 是 ， 经 过 认真 思考 后 的 我 们 认为 ， 即 便 在 
这 种 情况 下 ， 我 们 几 年 积累 下 来 的 实践 经 验 对 于 想 要 了 解 和 学 习 KVM 虚 拟 化 技术 的 工程 师 来 说 也 是 非常 有 意义 的 ， 毕 竟 实 践 更 能 检验 真理 。 回 想 当 初 自己 遇 到 问题 的 时 候 ， 我 们 也 得 到 了 一 些 论坛 朋友 、 
内 专家 的 热心 解答 。 互 联网 精神 崇尚 开放 ， 这 更 加 坚定 了 我 们 创作 此 书 的 决心 。 我 们 愿意 将 自己 对 KVM 技 术 的 理解 和 认识 ， 以 及 在 KYM 虚拟 化 中 解决 问题 的 思路 和 方法 分 享 出 来 ， 让 大 家 少 走 一 些 我 们 走 过 
的 弯路 ， 同 时 能 够 与 所 有 运 维 工程 师 共同 学 习 提升 ! 
























































本 书 特色 

















本 书 是 KVM 一 线 项 目 运 维 实践 经 验 总 结 ， 在 KVM CPU、 内 存 、 网 络 、 磁 盘 方 面 拥 有 丰富 的 技术 积累 ， 在 KVM 虚 拟 化 开源 分 布 式 与 商业 存储 、KVM 桌 面 虚拟 化 方面 有 的 大 量 实践 ， 我 们 还 会 指出 踩 过 
的 “技术 坑 ”， 这 些 都 是 弥 足 珍贵 的 经 验 。 









































本 书 对 Linux 系 统 和 虚拟 化 有 一 定 了 解 ， 但 是 对 KVM 不 了 解 或 者 是 了 解 不 多 ， 而 准备 在 测试 或 者 生产 环境 部 署 KVM 虚 拟 化 的 读者 ， 本 书 会 介绍 虚拟 化 项 目 如 何 评估 、 如 何 逐 步 实施 ， 并 介绍 相关 的 技术 
与 运 维 实践 ， 希 望 对 读者 的 生产 环境 虚拟 化 实施 有 所 帮助 。 





对 于 正在 做 KVM 虚 拟 化 日 常 运 维 的 读者 ， 本 书 有 相应 的 技术 、 实 践 经 验 、 问 题 案 例 分 享 ， 便 于 这 些 读者 碰 到 相似 的 问题 时 查询 或 者 找到 解决 思路 。 


本 书面 向 的 读者 


KVM 已 经 是 Linux 系 统 的 标 配 ， 是 Linux 的 必 备 技能 ， 希 望 本 书 对 广大 Linux 从 业者 能 够 有 所 帮助 。 








本 书 适用 于 以 下 读者 : 








' Linux 系 统 工程 师 。 


“ 从 事 Linux 虚 拟 化 开发 的 程序 员 。 


“ 虚拟 化 工程 师 。 


IDC 机房 管理 员 。 


: 有 志 于 从 事 虚 拟 化 的 在 校 大 学 生 。 


如 何 阅读 本 书 


本 书 分 为 五 篇 。 























第 一 篇 (第 1~8 章 ) ， 介 绍 虚 拟 化 选 型 及 KVM 虚 拟 机 技术 。 实 施 虚拟 化 可 带 给 我 们 哪些 收益 ， 虚 拟 化 引擎 选择 ，KVM 虚 拟 化 相关 的 CPU、 内 存 、 磁 盘 、 网 络 技术 及 生产 环境 应 用 场景 ， 物 理 机 转 虚 拟 


机 ，KVM 桌 面 虚拟 化 实践 。 




















第 二 篇 (第 9~10 章 ) ， 介 绍 开源 分 布 式 文件 系统 在 KYM 虚拟 化 的 应 用 。 介 绍 一 些 常见 的 开源 分 布 式 文件 系统 如 何在 KVM 环境 使 用 ， 重 点 详细 介绍 最 近 一 两 年 比较 热 的 Ceph 文 件 系 统 ， 包 括 配置 、 使 






















































































第 三 篇 (第 11~13 章 ) ， 介 绍 开 源 的 虚拟 化 管理 平台 在 生产 环境 的 实践 经 验 。 重 点 介绍 OpenStack、OpenNebula 在 生产 环境 的 实践 及 故障 处 理 ， 还 有 oVirt、CloudStack、Convirt、WebVirtMgr 几 


个 管理 平台 的 架构 和 理念 。 





第 四 篇 (第 14~21 章 ) ， 介 绍 KVM 虚 拟 化 项 
正式 环境 上 线 等 一 套 完整 的 虚拟 化 项 目 实施 过 程 。 























目 实施 经 验 ， 涵 盖 业 务 性 能 评估 、 压 力 模型 建立 、 虚 拟 机 性 能 测试 、 宿 主机 基准 测试 、 业 务 测试 环境 测试 验证 、 单 机 虚拟 化 技术 、 集 群 虚拟 化 技术 、 虚 拟 化 














第 五 篇 (第 22 章 ) ， 介 绍 KVM 虚 拟 化 过 程 中 比较 典型 的 一 些 案例 。 主 要 介绍 一 些 在 生产 环境 中 的 案例 及 解决 思路 、 方 法 ， 方 便 读 者 碰 到 类 似 的 问题 时 找到 解决 方案 。 


根据 本 书 内 容 ， 我 们 给 出 如 下 阅读 建议 : 








“ 如 果 是 刚 准备 开始 实施 虚拟 化 的 读者 ， 请 从 头 开始 阅读 本 书 。 


“ 如 果 对 分 布 式 文件 系统 在 虚拟 化 中 的 应 用 感 兴趣 的 读者 ， 可 以 阅读 第 二 篇 的 内 容 。 


“ 如 果 对 虚拟 化 管理 平台 使 用 感 兴趣 的 读者 ， 可 以 阅读 第 三 篇 的 内 容 。 


“ 如 果 是 对 虚拟 化 技术 有 一 定 了 解 ， 但 是 对 不 知道 如 何 实 施 虚 拟 化 的 读者 ， 建 议 阅读 第 四 篇 的 内 容 。 


“ 如 果 在 虚拟 化 实施 碰 到 问题 ， 需 要 寻找 解决 方法 的 读者 ， 可 以 阅读 第 五 篇 的 内 容 。 


资源 和 勘误 


由 于 时 间 紧 张 ， 笔 者 水 平 有 限 ， 书 中 难免 有 错误 和 不 足 之 处 ， 笔 者 运营 着 一 个 微 信 订 阅 号 ， 名 字 为 “KVM 虚 拟 化 实践 ”， 订 阅 号 为 “kvm_virt” 二 维 码 为 : 








欢迎 读者 扫描 关注 ，“KVM 虚 拟 化 实践 ”会 定时 发 布 笔者 对 KVM 虚 拟 化 新 的 认识 和 经 验 总 结 。 也 欢迎 读者 通过 这 个 微 信 订 阅 号 和 笔者 交互 ， 书 中 的 勘误 和 更 新 也 会 通过 这 个 订阅 号 发 布 。 


感谢 盛大 游戏 高 级 总 监 陈 桂 新 ， 盛 大 游戏 副 总 监 、G 云 COO 冯 祯 旺 对 我 们 





的 支持 ， 我 们 四 个 人 都 曾经 或 者 现在 在 盛大 游戏 虚拟 化 小 组 工作 ， 桂 总 、 冯 总 一 路 上 支持 我 们 ， 坚 定 地 











向 前 进 ， 即 使 中 间 碰 到 多 次 挫折 。 匠 











竺 我 们 沿 着 KVM 的 方 


看 ， 我 们 坚持 了 下 来 ， 也 很 高 兴 我 们 这 些 年 的 成 果 终 于 开花 结果 ， 财 化 出 了 G 云 (www.gicloud.com.cn) ， 一 款 专门 针对 游戏 行业 物理 机 和 云 主机 的 混合 云 。 
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的 人 认识 到 福 川 兄 对 中 国 互 联网 技术 














致 我 们 的 家 人 





， 在 认识 福 川 兄 之 前 ,我 们 已 经 购买 了 多 本 福 川 兄 出 版 的 书 ， 和 福 川 兄 的 合作 是 我 们 的 梦想 。 相 信 随 着 时 间 的 推移 ， 会 有 更 多 
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一 一 肖 力 ，2015 年 6 月 
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参与 这 本 书 的 写作 对 我 来 说 非常 荣幸 ， 首 先 要 感谢 肖 力 等 前 辈 传授 经 验 并 耐心 支持 ， 其 次 还 要 感谢 家 人 对 我 业余 时 间 不 能 陪伴 的 理解 ! 


— Ritik, 201546) 


第 一 篇 。 KVM 技术 详解 与 实践 


-RIF ”企业 虚拟 化 选 型 与 KVM 介 绍 
“第 2 章 ”开始 自己 的 第 一 台 虚 拟 机 

“第 3 章 CPU、 内 存 虚 拟 化 技术 与 应 用 场景 
“第 4 章 网络 虚 拟 化 技术 与 应 用 场景 
“第 5 章 。 KVM 磁盘 虚拟 化 技术 与 应 用 场景 
“第 6 章 KVM 虚 拟 机 的 资源 限制 

“第 7 章 ”物理 机 转 虚 拟 机 实践 


“第 8 章 KVM 吕 面 虚拟 化 实践 


第 1 章 ”企业 虚拟 化 选 型 与 KVM 介 绍 











虚拟 化 技术 从 2008 年 开始 越 来 越 热 ， 经 过 一 个 大 爆发 的 阶段 ， 目 前 已 经 是 企业 IT 环境 的 必 备 技术 ， 在 许多 企业 里 面 ， 虚 拟 机 的 数量 已 经 远 远大 于 物理 机 。 同 许多 技术 一 样 ， 虚 拟 化 也 分 为 开源 和 闭 源 技 
术 。KVM 就 是 一 种 开源 的 虚拟 化 技术 ， 本 章 将 为 读者 介绍 KVM 技 术 的 演进 过 程 、KVM 的 发 展 历史 及 KVM 的 应 用 场景 。 



























































13 ”KVM 的 前 世 今 生 





如 图 1-1 所 示 ， 根据 OpenStack 平 台 上 2013 年 10 月 虚拟 化 引擎 选择 的 调查 统计 数据 ，KVM 已 经 在 OpenStack 平 台 占 到 71% 的 份额 。 














OpenStack's Hypervisor of Choice 


OpenStack user survey result 


Hypervisors 


ESX 
896 
Xen 
896 
Xenserver 
59% 
Lxc 596 
Hyperv 396 








1-1 OpenStack 平 台 虚 拟 化 引擎 ， 用 户 调查 结果 














KVM 是 一 种 年 轻 的 虚拟 化 技术 ， 在 出 生 的 时 候 就 吸取 了 其 他 虚拟 化 技术 的 优点 ， 所 以 KVM 的 架构 简单 ， 没 有 历史 兼容 性 的 包 裕 ， 性 能 表现 优异 。 





本 节 介 绍 一 下 KVM 的 演进 过 程 。 








虚拟 化 技术 的 演变 过 程 可 以 分 为 软件 模拟 、 虚 拟 化 层 翻 译 、 容 器 虚拟 化 三 个 大 的 阶段 。 








其 中 ， 虚 拟 化 层 翻 译 又 可 以 分 为 : 

“ 软件 捕获 翻译 ， 即 软件 全 虚拟 化 。 

“ 改造 虚拟 机 系统 内 核 加 虚拟 化 层 翻译 ， 即 半 虚 拟 化 。 
“ 硬件 支持 的 虚拟 化 层 翻 译 ， 即 硬件 支持 的 全 虚拟 化 。 
下 面 分 别 介 绍 一 下 这 几 种 技术 方式 。 


(1) 软件 模拟 的 技术 方式 











软件 模拟 是 通过 软件 完全 模拟 CPU、 芯 片 组 、 磁 盘 、 网 卡 等 计算 机 硬件 ， 如 图 1-2 所 示 。 





应 用 程序 
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网 卡 模拟 网 卡 模拟 网 卡 模拟 


CPU 模拟 


CPU 模拟 





系统 


物理 硬件 


1-2 QEMU 的 虚拟 机 架构 




















因为 是 软件 模拟 ， 所 以 理论 上 可 以 模拟 任何 硬件 ， 甚 至 是 不 存在 的 硬件 。 但 是 因为 这 种 方式 全 部 是 软件 模拟 硬件 ， 所 以 非常 低 效 ， 一 般 只 用 于 研究 测试 的 场景 。 采 用 这 种 技术 的 典型 产品 有 Bochs、 
QEMU 等 。 





(2) 虚拟 化 层 翻译 


先 介绍 一 下 X86 平台 的 指令 集权 限 划分 。 如 图 1-3 所 示 ，X86 平 台 指 令 集 划 分 为 4 个 特权 模式 : Ring 0、Ring 1、Ring 2, Ring 3。 操 作 系 统一 般 使 用 Ring 0 级 别 ， 应 用 程序 使 用 Ring 3 级 别 ， 驱 动 程序 使 
用 Ring 1 和 Ring 2 级 别 。X86 平 台 在 虚拟 化 方面 的 一 个 难点 就 是 如 何 将 虚拟 机 越级 的 指令 使 用 进行 隔离 。 





VMware 公司 找到 了 最 早 的 解决 方法 ， 图 1-4 所 示 为 对 虚拟 机 指令 的 使 用 进行 捕获 和 翻译 的 示意 图 。 

















虚拟 化 引擎 VMM 





系统 


物理 硬件 


图 1-4 ”软件 全 虚拟 化 方案 架构 




















通过 虚拟 化 引擎， 捕获 虚拟 机 的 指令 ， 并 进行 处 理 ， 这 也 是 为 什么 在 虚拟 机 上 虽然 使 用 的 是 物理 机 一 样 的 指令 ， 但 是 虚拟 机 不 能 对 硬件 进行 操作 的 原因 ， 比 如 重启 虚拟 机 不 会 引起 宿主 机 的 重启 。 
解决 方案 也 叫 软件 全 虚拟 化 方案 。 
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(3) 改造 虚拟 机 操作 系统 的 方式 


通过 虚拟 化 引擎 进行 指令 捕获 和 翻译 的 方式 虽然 可 行 ， 但 是 在 虚拟 化 层 要 做 大 量 的 工作 ，Xen 项 目 提供 了 另外 一 种 思路 ， 就 是 对 虚拟 机 的 操作 系统 内 核 进行 改造 ， 使 虚拟 机 自己 对 特殊 的 指令 进行 更 
Bü, 然后 和 虚拟 化 层 一 起 配合 工作 ， 这 也 是 Xen 早 期 一 直 要 使 用 一 个 特殊 内 核 的 原因 ， 并 且 不 支持 Windows 系 统 虚拟 化 。 改 造 的 虚拟 机 虽然 使 用 上 有 限制 ， 配 置 比较 麻烦 ， 但 是 这 种 方式 效率 非常 高 ， 这 种 
方式 也 被 称 为 半 虚 拟 化 方案 。 










































































(4) 对 CPU 指令 进行 改造 





2005 年 ，Intel 推 出 了 硬件 的 方案 ， 对 CPU 指 令 进 行 改造 ， 即 VT-x， 如 图 1-5 所 示 。VT-x 增 加 了 两 种 操作 模式 : VMX root operation 和 VMX non-root operation。VMM 运 行 在 VMX root operation 
模式 ， 虚 拟 机 运行 在 VMX non-root operation 模 式 。 这 两 种 操作 模式 都 支持 Ring 0~Ring 3 这 4 个 特权 级 。 
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X86 CPU 指令 级 别 一 一 支持 VT 


图 1-5 硬件 虚拟 化 CPU 指令 说 明 





这 种 方案 因为 是 基于 硬件 的 ， 所 以 效率 非常 高 ， 这 种 方案 也 称 为 硬件 支持 的 全 虚拟 化 方案 ， 如 图 1-6 所 示 。 现 在 的 一 个 发 展 趋 势 是 不 仅 CPU 指令 有 硬件 解决 方案 ，MMO 通 信也 有 硬件 解决 方案 ， 称 为 VT- 
d; 网 络 通信 也 有 硬件 解决 方案 ， 称 为 VT-c。 


应 用 程序 应 用 程序 
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图 1-6 ”硬件 全 虚拟 化 方案 架构 
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当前 的 虚拟 化 引擎 ， 都 是 使 用 硬件 支持 的 虚拟 化 解决 方案 。 并 且 最 新 的 操作 系统 一 般 都 支持 一 些 半 虚 拟 化 的 特性 ， 所 以 宿主 机 和 虚拟 机 使 用 比较 新 的 版 本 ， 性 能 也 会 好 一 些 。 


(5) 容器 虚拟 化 





容器 虚拟 化 的 原理 是 基于 CGroups、Namespace 等 技术 将 进程 隔离 ， 每 个 进程 就 像 一 台 单独 的 虚拟 机 一 样 ， 有 自己 被 隔离 出 来 的 资源 ， 也 有 自己 的 根 目 录 、 独 立 的 进程 编号 、 被 隔离 的 内 存 空 间 。 基 
于 容器 的 虚拟 化 可 以 实现 在 单一 内 核 上 运行 多 个 实例 ， 因 此 是 一 个 更 高 效率 的 虚拟 化 方式 。 目 前 最 热 的 容器 虚拟 化 技术 就 是 Docker。Docker 的 优势 是 可 以 将 一 个 开发 环境 进行 打包 ， 很 方便 地 在 另外 一 个 
系统 上 运行 起 来 ， 并 且 有 版 本 的 概念 ， 可 以 在 前 一 个 版 本 的 基础 上 累加 。 但 是 Docker 在 生产 环境 的 使 用 还 需要 一 个 过 程 ， 主 要 是 磁盘 、 网 络 性 能 上 还 受到 很 多 限制 。 





























2.KVM 的 历史 





KVM (Kernel-based Virtual Machine) 最 初 是 由 以 色 列 的 公司 Qumranet 开 发 的 。KVM 在 2007 年 2 月 被 正式 合并 到 Linux 2.6.20 核 心中 ， 成 为 内 核 源 代码 的 一 部 分 。2008 年 9 月 4 日 ，RedHat 公 司 收 
购 了 Qumranet， 开 始 在 RHEL 中 用 KVM 蔡 换 Xen， 第 一 个 包含 KVM 的 版 本 是 RHEL 5.4。 从 RHEL 6 开始 ，KVM 成 为 默认 的 虚拟 化 引擎 。KVM 必 须 在 具备 Intel VT 或 AMD-V 功 能 的 X86 平台 上 运行 。 它 也 被 
移植 到 9%/390、PowerPC 与 IA-64 平 台 上 。 在 Linux 内 核 3.9 版 中 ， 加 入 了 对 ARM 架 构 的 支持 。 


















































KVM 包 含 一 个 为 处 理 器 提供 底层 虚拟 化 、 可 加 载 的 核心 模块 kvm.ko (kvm-intel.ko 或 kvm-amd.ko) ， 使 用 QEMU (QEMU-KVM) 作为 虚拟 机 上 层 控制 工具 。KVM 不 需要 改变 Linux 或 Windows 系 


统 就 能 运行 。 








3.KVM 的 架构 





KVM 的 架构 非常 简单 ， 如 图 1-7 所 示 ，KVM 就 是 内 核 的 一 个 模块 ， 用 户 空间 通过 QEMU 模 拟 硬件 提供 给 虚拟 机 使 用 ， 一 台 虚 拟 机 就 是 一 个 普通 的 Linux 进 程 ， 通 过 对 这 个 进程 的 管理 ， 就 可 以 完成 对 虚 
拟 机 的 管理 。 实 际 上 德国 有 家 公司 开发 了 一 个 管理 平台 Proxmox VE， 就 是 通过 对 KVM 进 程 的 管理 来 实现 对 虚拟 机 的 管理 的 。 
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图 1-7 KVM 的 架构 




















因为 对 进程 的 管理 非常 麻烦 ，RedHat 发 布 了 一 个 开源 项 目 Libvirt。Libvirt 有 APIl， 也 有 一 套 命令 行 工 具 ， 可 以 完成 对 虚拟 机 的 管理 ， 大 多 数 的 管理 平台 都 是 通过 Libvirt 来 完成 对 KVM 虚 拟 机 的 管理 的 ， 
比如 Openstack、Cloudstack、OpenNebula 等 。 








4.QEMU 与 KVM 


QEMU 是 一 个 开源 项 目 ， 实 际 就 是 一 台 硬 件 模拟 器 ， 可 以 模拟 许多 硬件 ， 包 括 X86 架 构 处 理 器 、AMD64 架 构 处 理 器 、MIPS R4000, ARM v6/v7 (Cortex-A8, A9, A15) 、SPARC sun3 与 PowerPC 
架构 ， 还 支持 其 他 架构 ， 可 以 从 QEMU 主 页 获取 完整 的 列表 。 

















QEMU 可 以 在 其 他 平台 上 运行 Linux 的 程序 ， 可 以 存储 及 还 原 虚 拟 机 运行 状态 ， 还 可 以 虚拟 多 种 设备 ， 包 括 网 卡 、 多 CPU、1DE 设 备 、 软 驱 、 显 卡 、 声 卡 、 多 种 并 口 设备 、 多 种 串口 设备 、 多 种 USB 设 
备 、PC 喇 叭 、PS/2 键 盘 鼠 标 (默认 ) 和 USB 键 盘 鼠 标 、 蓝 牙 设备 。 














QEMU 还 内 建 DHCP、DNS、SMB、TFTP 服 务 器 。 


比较 有 意思 的 是 ， 有 人 还 将 QEMU 编 译 成 Windows 版 本 ， 在 Windows 平 台 上 也 可 以 运行 QEMU。 








QEMU 的 好 处 是 因为 是 纯 软件 模拟 ， 所 以 可 以 在 支持 的 平台 模拟 支持 的 设备 ， 比 如 还 有 人 利用 QEMU 在 安 卓 上 安装 一 个 Windows XP 虚拟 机 出 来 。 




















QEMU 的 缺点 是 因为 是 纯 软件 模拟 ， 所 有 非常 慢 。QEMU 1.0 的 时 候 有 一 个 QEMU 和 和 KVM 结合 的 分 支 。KVM 只 是 一 个 内 核 的 模块 ， 没 有 用 户 空间 的 管理 工具 ，KVM 的 虚拟 机 可 以 借助 QEMU 的 管理 工 
具 来 管理 。QEMU 也 可 以 借助 KVM 来 加 速 ， 提 升 虚拟 机 的 性 能 。QEMU-KVM 的 分 支 版 本 发 布 了 3 个 正式 的 版 本 1.1、1.2、1.3， 随 后 和 QEMU 的 主 版 本 合并 ， 也 就 是 说 现在 的 QEMU 版 本 默认 支持 
KVM，QEMU 和 KVM 已 经 紧密 地 结合 起 来 了 。 





























KVM 的 最 后 一 个 自己 的 版 本 是 KVM 83， 随 后 和 内 核 版 本 一 起 发 布 ， 和 内 核 版 本 号 保持 一 致 ， 所 以 要 使 用 KVM 的 最 新 版 本 ， 就 要 使 用 最 新 的 内 核 。 














5.Libvirt 与 KVM 























Libvirt 是 一 套 开 源 的 虚拟 化 的 管理 工具 ， 主 要 由 3 部 分 组 成 : 
“ 一 套 API 的 lib 库 ， 支 持 主流 的 编程 语言 ， 包 括 C、Python、Ruby 等 。 


“ Libvirtd 服 务 。 


' 命令 行 工具 virsh。 


Libvirt 的 设计 目标 是 通过 相同 的 方式 管理 不 同 的 虚拟 化 引擎 ， 比 如 KVM、Xen、HyperV、VMware ESX 等 。 但 是 目前 实际 上 多 数 场景 使 





的 管理 工具 。 


Libvirt 可 以 实现 对 虚拟 机 的 管理 ， 比 如 虚拟 机 的 创建 、 启 动 、 关 闭 、 和 暂停、 恢复、 迁移、 销毁， 














Libvirt 还 支持 远程 的 宿 





机 管理 ， 只 要 在 宿 








“SSH。 


“TOP, 


- 基于 TCP 的 TLS。 


Libvirt 将 虚拟 机 的 管理 分 为 以 下 几 个 方面 : 



































以 及 虚拟 机 网 卡 、 硬 盘 、CPU、 内 存 等 多 种 设备 的 热 添加 。 


机 上 启动 Libvirtd 服 务 并 做 好 配置 ， 就 可 以 通过 Libvirt 进 行 虚拟 机 的 配置 。 通 道 可 以 是 以 下 方式 : 


第 一 ， 存 储 池 资 源 管 理 ， 支 持 本 地 文件 系统 目录 、 裸 设备 、Ivm、nfs、iscsi 等 方式 。 在 虚拟 机 磁盘 格式 上 支持 qcow2、vmdk、raw 等 格式 。 


Libvirt 的 是 KVM ， 而 Xen、HyperV、VMware ESX 都 有 各 





第 二 ， 网 络 资源 管理 ， 支 持 Linux 桥 、VLAN、 多 网 卡 绑 定 管理 ， 比 较 新 的 版 本 还 支持 Open vSwitch。Libvirt 还 支持 nat 和 路 由 方式 的 网 络 ，Libvirt 可 以 通过 防火 墙 让 虚拟 机 通过 宿主 机 建立 网 络 通道 


和 外 部 的 网 络 进行 通信 。 


1.2 KVM 与 常用 企业 级 虚拟 化 产品 的 PK 
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1. 常 





用 企业 级 虚拟 化 产品 的 比较 








目前 常 


(1) VMware 


VMware 是 最 早 的 X86 平台 上 的 虚拟 化 引擎 ，1999 稀 











在 laaSs、SaaS、PaaS 层 都 有 
和 VMware 一 起 形成 了 一 个 生态 链 。 





VMware 目前 被 EM 控股， 虚拟 化 产品 线 主要 有 针对 个 人 使 


vSphere 套 件 。 





VMware 的 产品 基本 上 都 是 非 开 源 产品 ， 并 且 大 部 分 都 是 收费 产品 ， 一 般 在 传统 关键 行业 使 


(2) HyperV 














HyperV 是 微软 的 虚拟 化 产品 ， 最 近 几 年 发 展 非常 迅速 ， 在 Windows Server 2012 R2 中 的 HyperV 支 持 许多 非常 新 的 虚拟 化 特性 。HyperV 必 须 使 有 






























































就 发 布 了 第 一 款 产 品 ， 经 过 十 几 年 的 发 
自己 的 产品 。 并 且 VMware 在 网 络 、 存 储 方 


的 VMware Workstation， 针 对 苹果 


见 的 企业 级 的 虚拟 化 产品 有 4 款 : 分 别 是 VMware、HyperV、Xen、KVM。 















































层面 也 有 一 些 私 有 协议 ， 许 多 


户 的 VMware Fusion ， 针 对 企业 级 































































































虚拟 机 。 

HyperV 也 是 一 款 非 开源 的 收费 产品 ，HyperV 的 集群 管理 工具 SCVM M 配 置 非 常 复杂 ， 
最 近 几 年 市 场 占有 率 也 在 提升 ， 主 要 是 一 些 使 用 Windows 系 统 的 企业 使 用 比较 多 。 

(3) Xen 





Xen 是 最 早 的 开源 虚拟 化 引擎 ， 由 剑桥 大 学 开发 ， 半 虚拟 化 的 概念 也 是 Xen 最 早 提出 的 。Xen 














出 的 时 间 比 较 长 ， 兼 容 性 、 稳 定性 都 不 错 ， 目 前 使 











Xen 的 主要 是 一 些 在 Xen_ 上 








(4) KVM 








KVM 比 较 年 轻 ， 所 以 出 生 的 时 候 就 吸取 了 
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选 的 虚拟 化 引擎。 国内 新 一 代 的 公有 云 全 部 采用 KVM 作 为 底 
2.KVM 优 势 
KVM 的 优势 主要 体现 在 以 下 几 点 。 
(1) 开源 
KVM 是 一 个 开源 项 目 ， 这 就 决定 了 KVM 一 直 是 开放 的 姿态 ， 
虚拟 化 一 般 网 络 和 存储 都 是 难点 。 网 络 方面 ，SR 
磁盘 方面 ， 基 于 SSD 的 分 层 技 术 ， 都 是 最 早 在 KVM 上 得 到 应 用 。 











KVM 背 靠 Linux 这 棵 大 树 ， 和 Linux 系 统 紧 密 结合 ， 在 Linux 上 的 新 技术 都 可 以 马上 应 


OpenStack， 莫 不 是 如 此 。 


(2) 性 能 


KVM 吸 引 许多 人 使 用 的 一 个 动因 就 是 性 能 ， 在 同样 的 硬件 条 件 下 ， 能 提供 更 好 的 虚拟 机 性 能 ， 主 要 是 因 
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(3) 免费 





KVM 因 为 是 
































许多 虚拟 化 的 新 技术 都 是 首先 在 KVM 上 应 


OV 技 术 就 是 最 先 在 KVM 上 先 有 应 用 ， 然 后 








技术 积累 较 多 的 企业 。 




















， 再 到 其 























8 推广 到 其 他 虚拟 化 引擎 上 。 



































到 KVM 上 。 围 绕 KVM 的 是 一 个 : 

















源 














源 项 目 ， 绝 大 部 分 KVM 的 解决 方案 都 是 免费 方案 ， 随 着 KVM 的 发 展 ，KVM 虚 拟 机 越 来 越 稳定 ， 兼 容 性 也 越 来 越 好 ， 


比较 多 一 些 ， 在 中 小 型 企业 、 互 联网 行业 使 用 得 
































需要 配置 Windows 域 、Windows Server 集 群 ， 然 后 才能 管理 多 台 宿 主机 。 


E 流 的 厂商 者 


户 的 VMware ESXi 服 务 器 。 管 理工 具 3 


64 版 的 Windows 产 品 ， 





























他 虚拟 化 引擎 上 推广 。 





的 生态 链 ， 从 底层 的 Linux 系 统 ， 到 中 间 





因 

















而 也 就 得 到 越 来 越 多 的 应 用 。 














了 支持 VMware 一 些 专 


殿 和 市 场 检验 ， 产 品 成 熟 、 稳 定 ， 兼 容 性 也 不 错 。VMware 的 产品 线 非常 全 面 ， 不 仅 有 虚拟 化 的 解决 方案 ， 
面 都 有 相关 的 解决 方案 ，VMware 和 网 络 存储 厂商 在 协议 




















的 协议 ， 


要 是 VMware 


HyperV 也 支持 Linux 系 统 的 


为 HyperV 的 成 本 相对 比较 低 ， 所 以 








后 来 被 思 杰 收 购 ， 推 出 了 一 套 叫 作 XenServer 的 管理 工具 ，XenServer 于 2013 年 年 底 宣布 免费 。Xen 











因为 推 





他 虚拟 化 技术 的 优点 ， 一 开始 就 支持 硬件 虚拟 化 技术 ， 没 有 历史 兼容 包 裕 。 所 以 KVM 推 出 来 的 时 候 ， 性 能 就 非常 优异 。 目 前 ，KVM 是 OpenStack 平 台 上 首 
层 的 虚拟 化 引擎 。KVM 已 经 成 为 开源 解决 方案 的 主流 选择 。 


再 比如 SDN、Open vSwtich 这 些 比较 新 的 技术 ， 都 是 先 在 KVM 上 得 到 应 用 。 














层 的 Libvirt 管 理工 














， 到 云 管理 平台 


为 KVM 架 构 简单 ， 代 码 只 有 2 万 行 ， 一 开始 就 支持 硬件 虚拟 化 ， 这 些 技术 特点 保证 了 KVM 的 性 





(4) 广泛 免费 的 技术 支持 


免费 并 不 意味 着 KVM 没 有 技术 支持 。 在 KVM 的 开源 社区 ， 数 量 巨大 的 KVM 技 术 支 持 者 都 可 以 提供 KVM 技 术 支 持 。 另 外 ， 如 果 需 要 商业 级 支持 ， 也 可 以 购买 红 帽 公司 的 服务 。 





1.3 ”判断 企业 是 否 适合 使 用 KVM 的 标准 


1. 业 务 类 型 


目前 在 互联 网 行业 ，KVM 虚 拟 化 技术 是 使 用 最 广泛 的 ， 因 为 互联 网 行业 有 对 新 技术 追求 的 冲动 。 另 儿 




















还 有 哪些 企业 、 个 人 适合 使 用 KVM 呢 ?可 以 这 样 总 结 :KVM 天生 就 是 为 Linux 而 生 的 ， 凡 是 可 以 使 














2. 企 业 对 成 本 的 关注 度 





随 着 虚拟 化 这 几 年 的 快速 发 展 ， 在 企业 的 IT 环 境 中 ， 虚 拟 化 已 经 是 一 个 标 配 的 技术 。 虚 拟 化 带 来 的 好 处 是 




















随 用 ， 有 效 节 省 成 本 ， 提 高 资源 利用 率 。 























Linux 的 地 方 ， 就 可 以 使 























KVM 虚 拟 化 技术 经 过 几 年 的 发 展 ， 已 经 非常 成 熟 ， 使 用 KVM 技 术 更 不 需要 在 虚拟 化 方面 支付 额外 的 费用 ， 











3. 企 业 对 快速 部 署 的 关注 度 




















虚拟 化 还 有 一 个 重要 的 功能 就 是 快速 部 署 。 在 宿主 机 
理 机 ， 最 起 码 都 要 一 个 小 时 。 通 过 磁盘 差 量 的 技术 ， 甚 至 可 以 做 到 秒 级 生成 虚拟 机 。 



























































可 以 进一步 节省 企业 的 IT 成 本 。 


KVM，KVM 天 生 和 Linux 在 一 起 。 


中 小 企业 也 推荐 使 用 KVM 技 术 ， 因 为 使 用 KVM 不 需要 支付 额外 的 费用 。 


巨大 的 ， 虚 拟 化 真正 实现 了 资源 池 化 ， 通 过 虚拟 化 可 以 将 服务 器 资源 进行 切割 ， 做 到 资源 随 取 











面 看 ， 虚 拟 机 就 是 一 个 镜像 文件 ， 要 得 到 另外 一 台 虚 执 














机 ， 只 需要 将 镜像 文件 复制 一 份 就 可 以 了 ， 












































通过 虚拟 化 技术 ， 还 可 以 实现 在 虚拟 化 层 做 高 可 用 和 在 线 迁 移 。 虚 拟 化 层 的 高 可 用 是 系统 层面 的 高 可 



































过 在 线 迁 移 ， 物 理 机 的 维护 、 系 统 的 维护 、 网 络 的 维护 ， 都 可 以 做 到 不 中 断 服务 ， 进 一 步 提高 了 业务 应 


















































“ 资源 使 用 自动 化 和 自助 服务 。 
: 资源 池 可 随时 扩展 。 
“ 资源 使 用 标准 化 。 


“ 资源 使 用 保持 了 很 好 的 兼容 性 。 


14 本 章 小 结 











本 章 介绍 了 虚拟 化 及 KVM 技 术 的 演进 过 程 ， 介 绍 了 KVM 技 术 的 优势 ， 可 以 简单 地 概括 : 凡是 使 有 


下 一 章 将 介绍 如 何 开始 自己 的 第 一 台 虚 拟 机 ， 在 安装 第 一 台 虚 拟 机 的 时 候 有 哪些 地 方 应 该 注意 。 





第 2 章 ”开始 自己 的 第 一 台 虚 拟 机 


通过 第 1 章 对 KVM 的 发 展 历史 、 架 构 及 应 用 场景 的 介绍 ， 读 者 对 KVM 技 术 有 了 初步 的 了 解 和 认识 。 本 章 将 介绍 如 何 创 建 一 台 KVM 虚 拟 机 、 操 作 步 又 及 








本 章 内 容 可 以 快速 阅读 或 者 跳 过 。 


2.1 服务 器 BIOS 设 置 











KVM 的 使 用 必须 有 硬件 虚拟 化 支持 ， 所 以 需要 打开 CPU 的 硬件 虚拟 化 特性 。 对 于 大 多 数 服 务 器 ， 如 Dell、HP、IBM、 浪 潮 、 联 想 、 华 为 等 ， 在 开机 启动 的 第 一 个 画 




















示 是 Dell R610 开 机 启动 的 第 一 个 画面 。 

















景 ， 如 果 上 虚拟 机 项 目 ， 就 天 然 适合 使 











通常 只 有 几 分 钟 。 而 按照 传统 方式 部 署 一 台 物 


慨 的 高 可 用 配置 要 简单 很 多 。 虚 拟 机 的 在 线 迁移 ， 更 是 虚拟 化 技术 的 独 有 手段 。 通 


因为 所 有 的 虚拟 机 都 是 相同 的 虚拟 硬件 ， 实 现 了 硬件 层级 的 标准 化 ， 降 低 了 自动 化 的 难度 ， 很 容易 搭建 私有 或 者 公有 的 云 平台 ， 所 以 通过 虚拟 机 技术 ， 很 容易 实现 以 下 功能 : 


KVM 虚 拟 化 技术 。 














熟悉 或 者 使 
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过 KVM 虚 拟 化 的 读者 ， 








都 会 有 一 些 提示 的 按键 ， 














(A idrac-BTV453I, PowerEdge R610, XuT528Xu523TXuFFlAroot, 32.7 fps 


FZ = System Setup 

F10 - System Services 
F11 = BIOS Boot Manager 
F12 = PXE Boot 


PowerEdge R610 


E | 
BIOS Revision 3.0.0 


图 2-1 Dell R610 开 机 启动 的 第 一 个 画面 
该 界面 提供 了 如 下 几 个 选项 : 
' 按 F2 键 进入 System Setup， 进 去 之 后 可 以 进行 一 些 BIOS 相 关 的 配置 。 
- 按 F10 键 进入 System Setrvices， 进 去 之 后 可 以 配置 一 些 系统 服务 ， 主 要 用 于 服务 器 的 配置 和 


- 按 F11 键 进入 BIOS Boot Manager， 进 入 之 后 可 以 选择 启动 介质 ， 比 如 从 硬盘 启动 、 虚 拟 DVD 设 备 、USB 设 备 ， 等 等 。 


“ 按 F12 键 进入 PXE， 进 入 之 后 启动 网 络 引导 。 


(oa 


不 同 的 厂商 服务 器 ， 功 能 键 的 定义 会 有 一 些 差别 ， 可 以 根据 提示 来 操作 。 


在 安装 KVM 虚 拟 化 之 前 ， 需 要 先 确认 CPU 虚拟 化 支持 是 否 开启 。 在 如 图 2-1 所 示 的 服务 器 开机 界面 中 按 F2 键 ， 然 后 进入 BIOS 配 置 ， 选 择 Processor Setting， 按 Enter 键 进入 子 菜单 ， 其 中 一 项 
Virtualization Technology 必 须 配置 为 Enabled (选择 菜单 项 ， 按 方向 键 右键 可 更 改 配置 ) ， 如 图 2-2 所 示 。 


(Ê i drac-81¥453I, PowerEdge R610, %u7T528%u6237%uFFlAroot, 16.9 fps 


Dell Inc. (www.dell.com) - PowerEdge R610 
BIOS Version 3.0.0 


System 
System 


Memoru| Core Speed 
Proces| Bus Speed 
Logical Processor 
SATA S| Virtualization Technology 
fid jacent Cache Line Prefetch 
Boot S| Hardware Prefetcher Enabled 
DCU Streamer Prefetcher Enabled 
Integr| Data Reuse Enabled 
PCI IR| Intel(R) QPI Bandwidth Priority Compute 
Execute Disable Enabled 
Serial 
Embedded Server Management <ENTER> 


Power Management <ENTER> 


Up,Doun Arrow to select SPACE, +,- to change ESC to exit F1-Help 


图 2-2 ”开启 CPU 虚拟 化 支持 





外 二 


不 同 厂商 的 服务 器 ，CPU Virtualization Technology 开 关 的 位 置 会 有 些 差别 ， 一 般 都 在 处 理 器 配置 菜单 之 下 。 近 年 来 服务 器 上 的 CPU 一 般 都 支持 CPU 虚拟 化 ， 在 系统 中 可 以 执行 
egrep' (vmx|svm) '/prov/CPUinfo 命 令 查看 ， 如 果 有 输出 内 容 ， 说 明 CPU 是 支持 虚拟 化 的 。 


2.2 CentOS 6.5, CentOS 7 系统 安装 与 配置 技巧 











通过 2.1 节 的 配置 ， 已 经 打开 了 服务 器 CPU 对 虚拟 化 的 支持 ， 下 面 开 始 安装 宿主 机 的 操作 系统 。CentOS 6.x 是 目前 使 用 比较 多 的 宿主 机 操作 系统 版 本 ， 当 前 最 新 版 本 是 CentOS 6.6, CentOS 7 从 系统 跨 
度 来 说 ， 是 CentOS 的 一 个 大 版 本 升级 ， 其 中 主要 包括 内 核 版 本 的 跨越 。CentOS 6.x 系 列 使 用 的 是 2.6.32.x 的 内 核 ，CentOS 7.x 则 使 用 3.10.x 的 内 核 。 








1.CentOS 6.5 宿 主机 系统 安装 及 配置 














在 生产 环境 中 ， 安 装 CentOS 6.5 系 统 的 宿主 机 ， 笔 者 采用 pxe 方 式 来 完成 批量 的 宿主 机 部 署 。pxe 配 置 过 程 的 资料 很 多 ， 本 书 就 不 做 详细 介绍 了 ， 下 面 分 享 一 个 宿主 机 安装 kickstart 文 件 的 内 容 ， 是 笔 
者 实际 在 生产 环境 中 使 用 的 。 

















# Kickstart file automatically generated by anaconda 

# 系 统 安 装 自动 生成 的 kickstart 文 件 

install 

url --url-http://10.10.10.1/system/CentOS6564 

# 指 定安 装 镜像 的 目录 ， 可 以 将 不 同 的 系统 放 在 不 同 的 目录 ， 这 样 可 以 完成 多 个 系统 安装 
lang en US.UTF-8 

# 宿 主机 建议 使 用 英文 

keyboard us 

network --onboot yes --device eth0 --mtu-1500 --bootproto dhcp 
network --onboot yes --device ethl --noipv4 --noipv6 

MEA, EARI, —Á S RT EU dhcpZ BIB, AAAF A. AT VUE E Lih SER AILT 
rootpw cEmXc2pkKets 。## 配 置 系统 密码 

text 

reboot 

# 文 本 方式 安装 ， 安 装 后 重启 

firewall --disabled 

authconfig --useshadow  --passalgo-sha512 

# 用 户 密 码 加 密 seLinux --disabled # 关 闭 SELinux 
THHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHE 

# Installation logging level 

logging --level-info 

# Do not configure the X Window System 

Skipx 

JHEHHBHHHHHBHHHHHHHHHHHHHHBHHHHBRBHHHHHHBHHHHHRBHHHHHRNE 

timezone Asia/Shanghai # 配 置 时 区 

bootloader --location-mbr --driveorder-sda --append-"crashkernel-auto rhgb quiet" 
clearpart --all --initlabel # 清 除 硬盘 数据 ， 并 创建 相应 分 区 

part /boot --fstype ext3 --size-256 

part pv.3 --size-40960 

part pv.4 --size-100 --grow 

volgroup datavg --pesize-32768 pv.4 

volgroup KVMvg --pesize-32768 pv.3 

logvol /datapool --fstype ext4 --name-datapool --vgname-datavg --size-10240 
--grow 坦 此 处 创建 了 一 个 目录 ， 用 于 存放 虚拟 机 ， 笔 者 习惯 的 目录 是 /datapool 
logvol swap --fstype swap --name-swap --vgname-KVMvg --size-8192 
logvol / --fstype ext4 --name-root --vgname-KVMvg --size-30720 
Spackages 

# 安 装 虚拟 化 需要 的 包 ， 主 要 有 : 

Gvirtualization 

GBase 

QCore 

Gadditional-devel 

Gbase 

Glarge-systems 

Gstorage-client-iscsi 

Gsystem-management-snmp 

Gvirtualization 

Gvirtualization-client 

Qvirtualization-platform 

Gvirtualization-tools 
THHHHBHHHHBHHHHHHHBHHHHHBHHHHHBHHHHHHHHHHHHBHHHHHHHBHHH I E 


Send 


























使 用 上 面 的 kickstart 配 置 文件 安装 完 宿主 机 系统 ， 可 以 通过 rpm-q 命 令 检查 一 下 具体 安装 了 哪些 包 。 














[root@localhost ~]# rpm -qa|grep -E 'qemu|libvirt|virt' 
libvirt-client-0.10.2-29.e16.x86 64 

#Libvirt 的 客户 端 ， 最 重要 的 功能 之 一 就 是 就 在 宿主 机 关机 时 可 以 通知 虚拟 机 也 关机 ， 

# 使 虚拟 机 系统 正常 关机 ， 而 不 是 被 强制 关机 ， 造 成 数据 丢失 
gpxe-roms-qemu-0.9.7-6.10.e16.noarch # 虚 拟 机 iPXE 的 启动 固件 ， 支 持 虚 拟 机 从 网 络 启动 
libvirt-python-0.10.2-29.e16.x86 64 。”#1ibvirt 为 Python 提供 的 RPI 
python-virtinst-0.600.0-18.e16.noarch # 一 套 Python 的 虚拟 机 安装 工具 
qemu-KVM-0.12.1.2-2.415.e16.x86 64 #KVM 在 用 户 空间 运行 的 程序 
Virt-manager-0.9.0-19.e16.x86 64 4&7 Libvirt 的 图 像 化 虚拟 机 管理 软件 
libvirt-0.10.2-29.e16.x86 64  ”# 用 于 管理 虚拟 机 ， 它 提供 了 一 套 虚拟 机 操作 API 
virt-viewer-0.5.6-8.e16.x86 64 XL E gU) 42: 6 console 
virt-top-1.0.4-3.15.e16.x86 64 # 类 似 于 toP 命 令 ， 查 看 虚拟 机 的 资源 使 用 情况 
virt-what-1.11-1.2.e16.x86 64 # 在 虚拟 机 内 部 执行 ,查看 虚拟 机 运行 的 虚拟 化 平台 
qemu-img-0.12.1.2-2.415.e16.x86 64 # 用 于 操作 虚拟 机 硬盘 镜像 的 创建 、 查 看 和 格式 转化 











在 KVM 环境 中 ， 以 上 rpm 包 都 是 必需 的 。 读 者 可 以 检查 当前 系统 里 面 是 否 已 经 安装 rpm， 如 果 没 有 ， 可 使 用 “yum install 组 件 名 称 ”命令 直接 安装 。 











2.CentOS 7 宿主 机 系统 安装 及 配置 


























CentOS 7 宿主 机 的 安装 与 CentOS 6 的 系统 安装 方式 类 似 ， 系 统 安装 完 之 后 ， 确 认 已 经 安装 了 如 下 的 rnpm 相 关 包 。Libvirt 还 包含 了 很 多 工具 的 库 ， 可 以 使 用 yum install libvirt* 命 令 安装 。 























[rootGKVM-host-CentOS7 ~]# rpm -qa|grep -E 'qemu-img|libvirt-[0-9] |virt-install' 
qemu-img-1.5.3-60.e17 0.10.x86 64 

virt-install-0.10.0-20.e17.noarch 

libvirt-1.1.1-29.e17 0.3.x86 64 

[rootGKVM-host-CentOS7 -]4 lsmod |grep KVM # 查 看 KVM 模 块 是 否 载 入 

KVM intel 138567 6 
KVM 441119 1 KVM intel 





























Libvirt 及 guestfish 相 关 的 工具 在 平时 的 运 维 过 程 中 经 常会 用 到 ， 建 议 使 用 yum install libguest*libvirt* 命 令 安 装 。 


23 ”第 一 台 虚 拟 机 安装 





本 节 介 绍 如 何 开 始 安装 第 一 台 虚 拟 机 。 首 先 需要 新 建 一 台 虚 拟 机 ， 然 后 通过 诸如 物理 机 安装 的 方式 为 虚拟 机 安装 操作 系统 。 但 是 一 般 不 会 使 用 pxe、cobbler 等 网 络 引导 方式 安装 ， 因 为 这 样 安装 虚拟 机 
系统 太 慢 了 。 虚 拟 化 相 比 于 物理 机 ， 其 中 一 个 优势 就 是 创建 快速 。 所 以 ， 一 般 都 会 使 用 ISO 镜像 文件 安装 第 一 台 虚 拟 机 ， 然 后 将 这 人 台 虚 拟 机 做 成 虚拟 机 模板 ， 之 后 的 虚拟 机 都 是 由 这 个 模板 生成 的 。 后 面 第 
16 章 会 详细 介绍 虚拟 机 模板 的 创建 。 本 节 将 介绍 两 个 KVM 虚 拟 化 中 常用 的 管理 工具 ， 用 它们 来 创建 虚拟 机 。 


Q9. 
模板 的 概念 在 虚拟 化 中 非常 重要 ， 实 际 上 绝 大 多 数 虚 拟 机 都 是 通过 模板 克隆 出 来 的 ， 而 不 是 像 物理 机 那样 安装 出 来 的 。 有 的 云 管理 平台 还 有 镜像 市 场 的 概念 ， 就 像 应 用 商店 ， 可 以 上 传 、 下 载 各 种 模 


板 。 


1.Virt-Manager 使 用 介绍 





Virt-Manager 是 一 个 图 形 化 的 虚拟 机 管理 工具 ， 它 提供 了 一 个 简易 的 虚拟 机 操作 界面 。 要 使 用 它 ， 需 要 先 安装 图 形 化 界面 ， 下 面 以 CentOS 6.5 系 统 为 例 ， 需 要 安装 如 下 组 件 。 








[root@KVM-host ~]#yum groupinstall -y "Desktop" "Desktop Platform" "Desktop 
Platform Development" "Fonts" "General Purpose Desktop" "Graphical Administration 
Tools" "Graphics Creation Tools" "Input Methods" "X Window System" "Chinese Support 
[zh]" "Internet Browser" 





一 般 来 说 ， 服 务 器 都 是 在 IDC 机 房 中 的 ， 为 了 看 到 宿主 机 的 图 形 化 界面 ， 还 需要 安装 配置 VNC。 








[root@KVM-host ~]#yum install -y tigervnc 

[rootGKVM-host ~]#yum install -y tigervnc-server 

<!-- 安装 VNC 程 序 软 件 包 tigervnc 和 tigervnc-server --> 

[root@KVM-host ~]#vim /etc/sysconfig/vncservers 

VNCSERVERS-"l:root" # 配 置 宿主 机 VNC 虚 拟 机 显示 器 为 1， 端 口 是 5901 
VNCSERVERARGS[2]-"-geometry 800x600 -nolisten tcp -localhost" 

# 虚 拟 机 显示 器 [2] 监听 的 TP 是 0.0.0.0， 虐 拟 显 示 器 [1] 监听 127.0.0.1， 屏 幕 分 辨 率 为 800x600 
[root@KVM-host ~]# vncpasswd # 设 置 VNC 密 码 


Password: 

Verify: 

[root@KVM-host ~]# service vncserver restart # 启 动 nc-server 

Shutting down VNC server: [ OK ] 


Starting VNC server: l:root xauth: creating new authority file /root/.Xauthority 
New 'whcq-netinst-121:1 (root)' desktop is KVM-host:1 
Creating default startup script /root/.vnc/xstartup 
Starting applications specified in /root/.vnc/xstartup 
Log file is /root/.vnc/ KVM-host:1.log 
[ OK ] 








配置 完成 之 后 ， 使 用 VNC Viewer 登 录 宿 主机 的 图 形 界面 ， 在 VNC Server 组 合 框 中 输入 宿主 机 的 “IP: 端口 ”， 端 口 是 之 前 配置 的 ， 本 例 中 输入 192.168.106.221: 5901， 如 图 2-3 所 示 。 


Q.. 


VNC Viewer 使 用 中 ， 有 时 候 会 出 现 VNC Viewer 界 面 闪 退 ， 可 以 通过 修改 网 络 速度 解决 这 个 问题 。 在 如 图 2-4 所 示 的 位 置 ， 取 消 色 选 该 复 选 框 ， 调 节 滑 块 到 Best quality o 

















图 2-3 ”使 用 VNC Viewer 登 录 宿 主机 图 形 界面 














[T] Adapt to network speed (recommended) 


Best compression Beat quality 


[E] View-only 
[V] Pass special keys directly to VNC Server 


[V] Use these settings for all new connections 





图 2-4 VNC Viewet 配 置 网 络 速 率 








VNC Viewer 配 置 完成 之 后 ， 回 到 图 2-3 所 示 的 界面 ， 单 击 Connec t 按 钮 ， 出 现 如 图 2-5 所 示 界 面 ， 提 示 输 入 密码 ， 此 处 的 密码 是 之 前 通过 vncpasswd 命 令 设置 的 VNC Server 密 码 。 























[wa VNC Viewer - 





VNC Server: 192. 168. 106. 221:5930 


Username: 


Password: 





Te aaa O Å — 





图 2-5 VNC Viewer 登 录 界 面 











输入 正确 密码 之 后 ， 应 该 就 可 以 登录 成 功 了 ， 出 现 如 图 2-6 所 示 界 面 。 

















Wed Dec 17, 7:05PM root 





[VNC config] 





图 2-6 ”宿主 机 VNC 登 录 之 后 界面 























在 菜单 中 ， 选 择 Applications 菜 单 中 的 System Tools 子 菜单 ， 选 择 打开 Virtual Machine Manager， 如 图 2-7 所 示 。 其 中 列 出 了 当前 宿主 机 上 所 有 的 虚拟 机 ， 并 显示 了 简单 的 CPU 利用 率 信息 。 在 图 形 
中 可 以 对 虚拟 化 做 常规 操作 ， 如 创建 、 删 除 、 编 辑 、 配 置 及 查看 远程 终端 等 。 
























































E: 











Virtual Machine Manager 
File Edit View Help 





0e7b3846-0815-422e-9760-036368f76013 
Running 


18f54c93-5fe9-41f8-bff2-11eb369446cd 
Running 


2468b6ad-605b-4437-Ba2d-18bafcO64edd 
Running 


5d7f4fea-acaf-Ae6c-Bfec-a0af1d681281 
Running 


cisco 
Shutoff 











2-7 Virtual Machine Manager 界 面 





2.virt-install 命 令 使 用 介绍 

















virt-install 是 一 个 在 命令 行 创 建 KVM 虚 拟 机 的 工具 ， 使 用 virt-instal 配 合 一 些 配置 参数 ， 最 终 可 以 生成 一 个 完整 的 .xml 虚 拟 机 配置 文件 。 














fvirt-install --name-testvm --ram-2048 --vCPUs-4 --os-type-Windows  --hvm 
--cdrom-/root/W2003cnent.iso --file-/root/SDG100.img --file-size-10 
--bridge-br0  --vnc --vncport-5920 





参数 说 明 如 下 。 

|name: 设置 虚拟 机 名 称 。 

“ -ram; 配置 虚拟 机 内 存 ， 单 位 是 MB。 

: --vCPUs: 配置 CPU 个 数 。 

“ --hvm: 配置 使 用 全 虚拟 化 。 

- --os-type: 指定 操作 系统 类 型 ， 如 Linux、Windows。 
“ —cdrom: 使 用 cdrom 安 装 系 统 ， 指 定 ISO 位 置 。 
fle: 设置 虚拟 机 硬盘 文件 路 径 。 

- --file-size: 配置 虚拟 机 硬盘 文件 大 小 ， 单 位 是 GB。 
< -bridge: 配置 桥接 的 网 卡 。 

“vnc; 打开 VNC 支 持 。 


: —vncport: 配置 VNC 端 口 。 























执行 上 述 命令 之 后 ，virt-install 会 创建 一 台 名 为 testvm 的 虚拟 机 ， 并 使 用 W2003cnent.iso 镜 像 文 件 安装 系统 。 此 时 使 用 VNC Viewer, VNC Server 中 输入 宿 3 
制 台 ， 此 时 虚拟 机 开始 从 ISO 引导 ， 安 装 虚 拟 机 系统 的 步骤 和 安装 普通 服务 器 系统 是 一 样 的 ， 这 里 就 不 详 述 了 。 


3.Windows 虚 拟 机 安装 注意 事项 
第 一 次 安装 Windows 虚 拟 机 的 时 候 ， 经 常会 碰 到 以 下 几 个 问题 。 
(1) qcow2 格 式 的 磁盘 如 何 操作 


Virt-Manager 默 认 创建 的 磁盘 格式 是 RAW 格 式 ， 如 果 需 要 使 用 qcow2 格 式 的 磁盘 ， 必 须 用 qemu-img create 手 工 先 创建 一 个 qcow2 格 式 的 磁盘 镜像 。 





qemu-img create Windows-test.qcow2 -f qcow2 50G 


机 ip: vncport， 便 可 登录 虚拟 机 的 控 





然后 如 图 2-8 所 示 ， 在 Virt-Manager 上 指定 qcow2 格 式 。 





Æ virtlO Disk 1 可 共享 (B] : N 
IDE CDROM 1 
NIC :c3:19:b6 * 高 级 选项 《o》 


表格 磁盘 总 线 《u) 


PUR 序列 号 《b》 

显示 Spi 

Ap apice 存储 格式 (0 

Sound: ich6 

Serial 1 b 性 能 选项 (P) 
10 调节 (D 


2-8 Virt-Manager 需 要 手工 选择 qcow2 方 式 





























Q.. 


在 使 用 virt-install 命 令 ， 磁 盘 镜像 格式 为 qcow2 时 ， 在 virt-install 命 令 中 要 特别 指明 磁盘 格式 ， 否 则 会 出 现 镜像 复制 之 后 虚拟 机 系统 不 能 启动 的 现象 ， 这 往往 是 初学 者 容易 忽视 的 地 方 。 
(2) 光驱 自动 消失 问题 
Windows 系 统 安装 的 时 候 ， 重 启 后 找 不 到 光盘 。 


KVM 新 创建 虚拟 机 ， 第 一 次 挂 载 的 光驱 ， 重 启 后 自动 消失 ， 这 是 一 个 功能 ， 专 门 针 对 Linux 系 统 ， 但 是 Windows 系 统 安装 的 时 候 需要 多 次 重启 ， 所 以 安装 时 第 一 次 重启 后 ， 会 出 现 如 图 2-9 所 示 的 界 
面 ， 需 要 再 手工 挂 载 一 下 Windows 系 统 ISO 镜像 。 

















Performance 目标 设备 : IDE CDROM 1 

Processor iB ERÍS : 

Memory 存 情 大 小 : 

Boot Options 只 读 (E) : 选择 介质 


VirtlO Disk 1 可 共享 (B) : 
IDE CDROM 1 选择 源 设 备 或 者 文件 


NIC :c3:19:b6 b 高 级 选项 (0) 9 iso 映像 位 置 


表格 位 置 (L) : ABER)... 


FER 
O CD-ROM 3Ẹ DVD : 


显示 Spice 
Sound: ich6 设备 介质 {D) : | v | 





Serial 1 | 取消 (C) | 确定 (0) | 


Channel 











图 2-9 Virt-Managet 需 要 手工 选择 再 加 载 光驱 一 次 


也 可 以 修改 虚拟 机 的 xml 配 置 文 件 ， 光 驱 配 置 的 xm| 文 件 如 下 : 





«disk type-'file' device-'cdrom'» 
Xdriver name-'gemu' type-'raw' cache-'none'/» 
«source file-'/home/CentOS-7.0-1406-x86 64-DVD.iso'/» 
«target dev-'hdb' bus-'ide'/» 
«readonly/» 

«/disk» 





(3) 鼠标 不 同步 问题 


Windows 在 KVM 上 会 出 现 鼠 标 不 同步 问题 ， 如 图 2-10 所 示 ， 再 添加 一 个 USB 鼠 标 设备 就 可 以 解决 。 





Storage 


Network 


请 指出 连接 到 虚拟 机 的 指针 设备 类 型 。 


Graphics 


类 型 (T) : | EvTouch USB 图 形 表格 v 
Sound 





图 2-10 ”Virt-Manager 需 要 手工 添加 USB 指 针 设 备 


添加 一 个 USB 鼠 标 设备 的 xml 文 件 如 下 : 


«input type-'tablet' bus-'usb'/» 


Qez 


如 果 添 加 两 次 USB 设 备 ，Windows 系 统 虚 拟 机 系统 启动 会 蓝屏 ， 所 以 只 能 添加 一 次 USB 设 备 。 


4.Linux 虚 拟 机 安装 注意 事项 
































Linux 系 统 的 安装 除了 会 碰 到 Windows 系 统 安装 的 qcow2 磁 盘 格 式 问 题 、 鼠 标 不 同步 的 问题 ，Linux 虚 拟 机 的 安装 还 可 以 使 用 一 种 非常 有 意思 的 方式 ， 就 是 可 以 直接 指定 内 核 文 件 路 径 ， 然 后 直接 加 载 ， 
如 图 2-11 所 示 。 









































Autostart 


rns M Start virtual machine on host boot up 


Processor 


Memory Boot device order 


Boot Options f^ Enable boot menu 


VirtlO Disk 1 M NEP 
IDE CDROM 1 M (S CDROM 


NIC :d1:19:32 E Br pp 
PPY 


Mouse M É Network (PXE) 
Display Spice 
Serial 1 v Direct kernel boot 


Channel 
Kernel path: | home/vmlinuz 
Video QXL 


Controller USB Initrd path: | home/initrd.img 





Controller PCI Kernel arguments: ks-http://192.168.0.10|ksconfig/1/c7.cfg 
Controller IDE 
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Controller Virtio Serial 





图 2-11 通过 指定 内 核 文件 安装 虚拟 机 














Oez 


内 核 文件 需要 使 用 安装 光盘 中 的 images 下 的 pxe 内 核 文件 。 





系统 引导 起 来 之 后 ， 会 根据 kickstart 文 件 来 下 载 系 统 ， 然 后 安装 ， 如 图 2-12 和 图 2-13 所 示 。 

















I] 
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OK 
Ok 
UK 
OK 
UK 
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ut 
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un 
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uu 
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ut 


un 


5 
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uda: unknoun partition table 
[drm] Currently using mode #0, list at 0x438 
269061 [drm] 12286 io pages at offset 6x1080600 


2269061] [drm] 16777216 byte draw area at offset 0x0 


[drm] RAN header offset: O0x3ffeün6n0 

[drm] ron modcs offsct 0x188 for 128 modcs 

[TIM] Zone kernel: fiuailable graphics menory: Z024080 
[TTM] Initial w pool allocator 

[TIM] Initializing DNA pool allocator 

[drm] qx1: 16M of URAN memory size 

[drm] qx1: 63M of IU pages memory ready (URAN donain) 


.2457411 [drm] main nem slot 1 [f4 J0 , 3f f eo060) 
.246598] [drm] fb mappable at OxFA4000000, sizce 314572 
2465991 [drm] fb: depth 24, pitch 4096, width 1024, height 768 


233177] fbcon: gxldrmfb (fb0) is prinary device 


.£297081 tsc: Refined TSC clocksource calibration: Z665.910 MHz 


2826181 i ; Z Generic Explorer Mouse as /deuiceszplatfarn^i180427/serio17input 


3 81 Console: i ing to colour frame buffer device 128x48 
. 3047411 qx1 6 : D: fbo，qxldrnfthb frame buffer deuice 
.3047481 qx1 0000:00 : rcgistcrcd panic notifier 


3047581 [drm] Initialized qx1 0.1.0 2012011? for 090 G:02.0 on minor O 
3480160] ata? : ATAPI: QEMU DUD-ROM, 1.5.3, max UDMAA100 


3487961] at configured for MWDMAZ 


3496271 scsi 1: D-RüM QENU QEMU DUD-ROM 1.5. PQ: @ ANSI: 5 


, 3687801 : SCSi3d-n drive: 4x^/4x cd/ru xa^formZ tray 
. 3687941 cdron: Uniform CD-ROM driuer Reuision: 3.20 


] Startcd dracut prc-triggcr hook. 
Starting udeu Coldplug all Devices... 
Hounting Configuration File System 
Started udev Coldplug all Devices. 
Starting dracut initqueue hook 
Starting Show Plunouth Boot Screen... 
Haunted Configuration File System. 
Bcachcd target Systen Initialization. 
Started Show Plymouth Boot Screen. 
Reached target Paths 

] Reached target Basic System, 


dracut-initqueueI5831: RINETLINK ansuers: File exists 
dracut-initqueue[5831: 7 Total <“ Received 2 Xferd fiwerage Speed Time Time Tine 


äracut-initgueue [563]: Dload Upload Total Spent Left Speed 
1320 100 13% 0 0 133k 0 i=: Cosi 


106 


644k: 


dracut-initqueue[5831: 7 Total x Received x Xferd Puerage Speed Time Time Tine 
dracut-initqueuc[503]1: Dload Upload Tota l Spent Left Spred 


100 


1199 100 1109 0 Ə 14788 8 --—:--:-- --: 


— 一 :一 :一 14985:--:-- --:--:— 


dracut-initqueue[5831: x Total z Received x Xferd fuer Speed Time Time Tine 
dracut-initqgueue[5831: Dload Upload Total Spent Left Speed 
278M * 11.1H g ð 470k 0 98:18:07 0:00:24 30:89:43 34960k:-—-:-— —-—:-—-:— 
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图 2-12 ”虚拟 机 启动 后 根据 kickstart 文 件 路 径 下 载 安 装 文件 
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安装 信息 摘要 CENTOS 7 安装 
E cn 
本 地 化 
日 期 和 时 间 (T) 键盘 (K) 
亚洲 /上 海 时 区 XB 
语言 支持 (L) 
WAPE (HE) 
软件 
安装 源 () 软件 选择 (S) 
http.//mirrors.163.co*': alpin iu 6.64 BiEEBAEXUIT 
系统 
安装 位 置 (D) 网 络 和 主机 名 (N) 
REIF f825 ( eth0 ) 已 连接 
退出 (9) 
ü FERA” ERRAT SIBI ATTBIB 








c. 请 先 完成 带 有 此 图 标 标记 的 内 容 再 进行 下 一 步 . 


图 2-13 ”随后 根据 kickstart 文 件 安装 系统 


24 ”本章 小 结 












































本 章 介 绍 了 如 何 安装 宿主 机 、 如 何 安装 虚拟 机 及 虚拟 机 安装 时 的 一 些 注意 事项 。 读 者 可 以 正式 开始 自己 的 虚拟 化 环境 搭建 了 ， 在 搭建 的 时 候 ， 还 有 许多 技术 点 需要 了 解 ， 下 一 章 将 为 读者 介绍 KVM 虚 拟 
机 CPU、 内 存 方面 的 技术 及 应 用 场景 。 









































第 3 章 ”CPU、 内 存 虚 拟 化 技术 与 应 用 场景 














本 章 将 为 读者 详细 介绍 KYM 虚拟 化 中 的 CPU 和 内 存 技术 ， 以 及 每 种 技术 的 应 用 场景 。 























KVM 虚 拟 机 CPU 的 软件 调 优 首先 需要 对 NUMA 技 术 有 一 定 的 了 解 ， 调 优 的 主要 手段 就 是 虚拟 机 对 物理 机 CPU 逻辑 核 的 手工 绑 定 。 














CPU 的 Nested 特 性 使 用 也 是 非常 有 意思 的 一 个 特性 ，KVM 虚 拟 机 的 谋 套 在 理论 上 可 以 无 限 层 地 嵌 套 下 去 ， 只 要 物理 机 的 性 能 足够 。 











内 存 方 面 的 调 优 手段 主要 是 KSM ， 即 相同 内 存 页 合并 、 内 存 气球 技术 及 大 页 内 存 的 使 用 。 























31 NUMA 技 术 与 应 用 


NUMA 是 一 种 解决 多 CPU 共同 工作 的 技术 方案 ， 首 先 回顾 一 下 多 CPU 共同 工作 技术 的 架构 历史 。 多 CPU 共同 工作 主要 有 3 种 架构 ， 分 别 是 SMP、MPP、NUMA 架 构 。SMP、MPP、NUMA 都 是 为 了 解 
决 多 CPU 共同 工作 的 问题 。 





1.SMP 技 术 

















int 


的 时 候 ， 每 台 服 务 器 都 是 单 CPU， 随 着 技术 的 发 展 ， 出 现 了 多 CPU 共同 工作 的 需求 ， 最 早 的 多 CPU 技术 是 SMP。 

















如 图 3-1 所 示 ，SMP 即 多 个 CPU 通过 一 个 总 线 访问 存储 器 ， 因 此 SMP 系 统 有 时 也 被 称 为 一 致 内 存 访问 (UMA) 结构 体系 。 一 致 性 意 指 无 论 在 什么 时 候 ， 处 理 器 只 能 为 内 存 的 每 个 数据 保持 或 共享 唯一 一 

















SMP 的 缺点 是 扩 
2.MPP 模 式 


MPP 模 式 则 是 一 种 分 布 式 存储 器 模式 ， 能 够 将 更 多 的 处 理 器 纳入 一 个 系统 的 存储 器 。 一 个 分 布 式 存储 器 模式 具有 多 个 节点 ， 每 个 节点 都 有 自己 的 存储 器 ， 可 以 配置 为 SMP 模 式 ， 也 可 以 配置 为 非 5MP 模 
。 单 个 的 节点 相互 连接 起 来 就 形成 了 一 个 总 系统 。MPP 可 以 近似 理解 成 一 个 SMP 的 横向 扩展 集群 。MPP 一 般 要 依靠 软件 实现 。 


3.NUMA 技 术 


如 图 








NUMA-Q 是 IBM 最 早 将 NUMA 技 术 应 用 到 i386 上 的 商业 方案 ， 可 以 支持 更 多 的 X86 CPU 一 起 工作 。 









































图 








3-1 多 CPU 的 SMP 架 构 





口 达 到 饱和 的 时 候 ， 增 加 处 理 器 并 不 能 获得 更 高 的 性 能 ， 因 


3-2 所 示 ，NUMA 模 式 则 是 每 个 处 理 器 有 自己 的 存储 器 ， 每 个 处 理 器 也 可 以 访问 别 的 处 理 器 的 存储 器 。 

















图 3-3 所 示 是 多 核 CPU 的 NUMA 架 构 。 


此 SMP 方 式 支持 的 CPU 个 数 有 限 。 


























图 3-2 ”多 CPU 的 NUMA 架 构 


8.0GT/s QPI 
GPU OQ CPU 1 
8.0GT/s QPI 


NUMA NODE 0 
NUMA NODE 1 


图 3-3 多核 NUMA CPU 架 构 ( 来 自 于 Intel 网 站 资料 ) 





3.1.1 KVM 虚 拟 机 NUMA 调 优 


1. 宿 主机 的 NUMA 信 息 查 看 与 配置 








因为 NUMA 架 构 每 个 处 理 器 都 可 以 访问 自己 和 别 的 处 理 器 的 存储 器 ， 访 问 自己 的 存储 器 要 比 访问 别 的 存储 器 快 很 多 ， 速 度 相差 10~100 倍 ， 所 以 NUMA 调 优 的 目标 就 是 让 处 理 器 尽量 访问 自己 的 存储 
器 ， 以 提高 处 理 速 度 。 



































如 图 3-4 所 示 ， 通 过 numactl--hardware 命 令 可 以 看 到 当前 CPU 硬件 的 情况 ，CPU 有 两 颗 ， 每 颗 有 8 个 核 ， 每 个 核 有 64GB 内 存 可 以 使 用 。 





[root®localhost "]& numactl --hardware 

available: 2 nodes (0-1) 

node O epus: 012 34 556 T 16 IT 18 19 20 21 22 23 

node 0 size: 65501 MB 

node 0 free: 689 MB 

node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31 


node 1 size: 65535 MB 
node 1 free: 4829 MB 
node distances: 
node 0 1 

0: IU 20 

Ls 20 40 





图 3-4 CPU NUMA f$ JL 








使 用 numastat 命 令 可 以 查看 每 个 节点 的 内 存 统计 。 











nodeO nodel 
numa hit 4911255660 490070817 # 使 用 本 节点 内 存 次 数 
numa miss 20552767 946830474 # 计 划 使 用 本 节点 内 存 而 被 调度 到 其 他 节点 次 数 
numa_foreign 946830474 20552767 # 计 划 使 用 其 他 节点 内 存 而 使 用 A n 
interleave hit 14625 14612 4$ 3L2 BE 9H SH RH Y 点 的 内 存 次 
local node 911244851 490037204 # 在 本 节点 运行 的 程序 使 用 本 节点 内 存 次 数 
other node 20563576 946864087 # 在 其 他 节点 运行 的 程序 使 用 本 节点 内 存 次 数 








numastat 命 令 使 用 -c 参 数 可 以 查看 相关 进程 的 NUMA 内 存 使 用 情况 。 








numastat -c qemu-kvm 

ma node process memory usage (in MBs) 
PID Node 0 Node 1 Total 

3135 (qemu-kvm) 2317 1443 3760 

3187 (gemu-kvm) 2508 2454 4962 


3245 (gemu-kvm) 4424 2287 6711 
20830 (gemu-kvm) 942 1124 2066 
31717 (gemu-kvm) 852 1114 1967 
Total 11044 8422 19466 

















Linux 系 统 默 认 是 自动 NUMA 平 衡 策略 。 如 果 要 关闭 Linux 系 统 的 自动 平衡 ， 可 以 使 用 如 下 命令 : 





























# echo 0 > /proc/sys/kernel/numa balancing 














如 果 要 开启 自动 NUMA 平 衡 策 略 ， 可 以 使 用 如 下 命令 : 














echo 1 > /proc/sys/kernel/numa balancing 





2. 虚 拟 机 NUMA 信 息 查 看 与 配置 








使 用 virsh numatune 命 令 可 以 查看 或 者 修改 虚拟 机 的 NUMA 配 置 。 











virsh # numatune 4 
numa mode : strict 
numa nodeset i 0-1 











NUMA 工 作 方式 可 以 是 strict 指 定 CPU， 或 者 auto 使 用 系统 的 numad 服 务 。 

















<numatune> 


«memory mode-'strict' placement-'auto'/» 
«/numatune» 
«numatune» 

«memory mode-'strict' nodeset-'0,2-3'/» 
«/numatune» 





可 以 使 用 numatune 命 令 配 置 虚拟 机 的 NUMA。 





virsh numatune rhel7 --nodeset '0, 2-3' 





vpcu 的 设置 如 下 : 





<vcpu placement-'auto'»8«/vcpu» 
<vcpu placement-'static' cpuset-'0-10,5'»8«/vcpu» 




















<vcpu> 和 <numatune> 需 要 保持 一 致 ，<numatune> 配 置 的 是 物理 CPU，<vcpu> 配 置 的 是 CPU 的 核 ， 包 括 超 线 程 产 生 的 核 。<numatune> 使 用 static 模 式 ，<nodeset> 也 必须 是 。 





可 以 设置 一 个 虚拟 机 给 32 个 虚拟 CPU， 但 是 一 开始 只 能 使 用 8 个 ， 然 后 根据 系统 压力 ， 热 添加 CPU 给 虚拟 机 。 











«vcpu placement-'auto' current-'8'»32«/vcpu» 








也 可 以 给 每 个 虚拟 机 CPU 指定 具体 的 物理 机 CPU pinning 策 略 。 





<cputune> 








<vcpupin vcep 

<vcpupin vcpl 

<vcpupin vcpu= cpuset-"2,3" 

«vcpupin vcpu-"3" cpusetz"0, 4"/» 
X/cputune» 











也 可 以 使 用 emulatorpin 的 方式 。emulatorpin 标 签 可 以 指定 一 个 特定 的 物理 CPU 范围 ， 比 如 一 个 物理 CPU 内 部 所 有 的 核 ， 使 虚拟 机 使 用 的 CPU 和 存储 器 都 在 一 个 物理 机 CPU 内 部 ，xml 文 件 如 下 : 











<cputune> 
<emulatorpin cpuset="1-3"/> 
</cputune> 





可 以 在 线 调整 ， 命 令 方式 如 下 : 





virsh emulatorpin CentOS7 1-3 





1~3 的 核 都 在 一 个 物理 CPU 内 部 。 也 可 以 设置 虚拟 机 对 NUMA 资 源 的 使 用 。 
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«numa» 
«cell cpus-'0-3' memory-'512000'/» 
Xcell cpus-'4-7' memory-'512000'/» 
«/numa» 
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</cpu> 





标签 项 意义 如 下 。 

< cell: numa 的 cell 或 者 numa 节 点 。 

:cpus: 一 个 物理 CPU 可 以 使 用 的 CPU 范围 。 

: memory: 可 以 使 用 的 内 存 大 小 ， 单 位 为 KB。 
3. 虚 拟 机 NUMA 和 内 存 KSM 


KSM 技 术 可 以 合并 相同 的 内 存 页 ， 即 使 是 不 同 的 NUMA 节 点 ， 如 果 需 要 关闭 跨 NUMA 节 点 的 内 存 合并 ， 设 置 /sys/kerneVymmy/ksm/merge_across_nodes 参 数 为 0。 或 者 可 以 关闭 特定 虚拟 机 的 KSM 内 
存 合并 ， 在 虚拟 机 的 xm 人 配置 文件 中 添加 以 下 内 容 就 可 以 : 





<memoryBacking> 
<nosharepages/> 
</memoryBacking> 





3.1.2. ”CPU 绑 定 操作 方法 














CPU 绑 定 是 一 项 非常 神奇 的 技术 ， 最 神奇 的 地 方 就 是 可 以 在 线 配置 ， 并 且 立 即 生效 ， 可 以 解决 生产 环境 CPU 利用 率 严重 不 平均 的 问题 。 





1.CPU 信 息 查看 








使 用 virsh vcpuinfo 命 令 查看 虚拟 机 VCPU 和 物理 CPU 的 对 应 关系 。 











virsh vcpuinfo 21 

VCPU: 0 

CPU: 25 

State: running 

CPU time: 10393.0s 

CPU Affinity: ----———- YYYYYYYY-——— —- YYYYYYYY 
VCPU: 1 

CPU: 8 

State: running 

CPU time: 7221.2s 

CPU Affinity: -------- YYYYYYYY-— — —- YYYYYYYY 
VCPU: 2 

CPU: 26 

State: running 

CPU time: 7321.4s 

CPU Affinity: -------- YYYYYYYY-——— —- YYYYYYYY 
VCPU: 3 

CPU: 8 

State: running 

CPU time: 6808.9s 


CPU Affinity: -------- YYYYYYYY-------- YYVYYYYY 











可 以 看 到 VCPU 0 被 调度 到 物理 机 CPU 25 上 ， 目 前 是 使 用 状态 ， 使 用 时 间 是 10393.0s。 最 后 一 行 是 CPU 亲 和 性 的 信息 : 




















CPU Affinity: -------- YYYYYYYY-------- YYVYYYYY 





yyyyyyy 表 示 可 以 使 用 的 物理 CPU 内 部 的 逻辑 核 ， 可 以 看 到 这 台 虚 拟 机 允许 在 8~15、24~31 这 些 物理 CPU 之 间 调 度 。 为 什么 不 能 使 用 0~7、16~23 这 些 CPU 呢 ?是 因为 系统 的 自动 NUMA 平 衡 服 务 在 发 


























生 作 用 ， 一 个 虚拟 机 默认 只 能 使 用 同一 颗 物 理 CPU 内 部 的 逻辑 核 。 





























使 用 emulatorpin 命 令 可 以 查看 虚拟 机 可 以 使 用 哪些 物理 逻辑 CPU。 




















virsh # emulatorpin 21 
emulator: CPU Affinity 





可 以 看 到 0~31 都 可 以 使 用 ， 意 味 着 可 以 强制 将 VCPU 调 度 到 任何 物理 CPU 核 上 。 





2. 在 线 绑 定 虚拟 机 的 CPU 


(1) 让 虚拟 机 只 能 在 部 分 物理 CPU 之 间 调 度 











可 以 强制 让 虚拟 机 只 能 在 部 分 物理 CPU 之 间 调 度 。 比 如 使 用 下 面 的 命令 ， 使 编号 为 21 的 虚拟 机 CPU 在 26~31 这 些 物理 CPU 之 间 调 度 : 




















Virsh emulatorpin 21 26-31 --live 





通过 以 下 命令 查看 绑 定 是 否 生效 : 





virsh emulatorpin 21 
emulator: CPU Affinity 





我 们 可 以 通过 vcpuinfo 命 令 和 虚拟 机 的 xm 配置 文件 验证 。 





1) 查看 虚拟 机 的 VCPU 调 度 信息 。 





virsh vcpuinfo 21 

VCPU: 0 

CPU: 28 

State: running 

CPU time: 10510.5s 

CPU Affinity: -------------------------- YYYYYY 
VCPU: 1 

CPU: 28 

State: running 

CPU time: 7289.7s 

CPU Affinity: -------------------------- YYYYYY 
VCPU: 2 

CPU: 27 

State: running 

CPU time: 7391.3s 

CPU Affinity: ~ YYYYYY 
VERU: 3 

CPU: 27 

State: running 

CPU time: 6886.6s 

CPU Affinity: -------------------------- YYYYYY 





2) 通过 虚拟 机 的 xm 配置 文件 查看 VCPU 调 度 信 息 。 





virsh # dumpxml 21 

«domain type-'kvm' id-'21'» 
«name»cacti-230«/name» 
«uuid»23a6455c-5cdl-20cd-ecfe-2ba89be72c41«/uuid» 
«memory unit-'KiB'»24194304«/memory» 
«currentMemory unit-'KiB'»24194304«/currentMemory» 
Xvcpu placement-'static'»4«/vcpu» 
«cputune» 

«emulatorpin cpuset-'26-31'/» 

X/cputune» 
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(2) 强制 VCPU 和 物理 机 CPU 一 对 一 绑 定 


我 们 也 可 以 强制 VCPU 和 物理 机 CPU 一 对 一 地 绑 定 。 比 如 强制 VCPU 0 和 物理 机 CPU 28 绑 定 ， 强 制 VCPU 1 和 物理 机 CPU 29 绑 定 ， 强 制 VCPU 2 和 物理 机 CPU 30 绑 定 ， 强 制 VCPU 3 和 物理 机 CPU 3158 
命令 如 下 : 





Virsh vcpupin 21 0 28 
virsh vcpupin 21 1 29 
virsh vcpupin 21 2 30 
virsh vcpupin 21 3 31 





查看 xml 文 件 ， 验 证 <cputune> 块 中 的 vcpupin 配 置信 息 。 





virsh # dumpxml 21 
«domain type-'kvm' id-'21'» 
«name»cacti-230«/name» 
«uuid»23a6455c-5cdl-20cd-ecfe-2ba89be72c41«/uuid» 
«memory unit-'KiB'»24194304«/memory» 
«currentMemory unit-'KiB'»4194304«/currentMemory» 
Xvcpu placement-'static'»4«/vcpu» 
«cputune» 
«vcpupin vcpu-'0' cpuset-'28'/» 
«vcpupin vcpu-'l' cpuset-'29'/» 
«vcpupin vcpu-'2' cpuset-'30'/» 
«vcpupin vcpu-'3' cpuset-'31'/» 
«emulatorpin cpuset-'26-31'/» 
X/cputune» 
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验证 一 下 虚拟 机 重启 后 ， 配 置 是 否 继续 生效 。 将 虚拟 机 关机 再 开机 ， 检 查 一 下 配置 是 否 一 直 有 效 ， 可 以 看 到 配置 一 直 生 效 。 


virsh vcpuinfo 22 

VCPU: 0 

CPU: 28 

State: running 

CPU time: 1.8s 

CPU Affinity: ---------------------------- y--- 
VCPU: 1 

CPU: 29 

State: running 

CPU time: 0.0s 

CPU Affinity: ~- y-- 
VCPU: 2 

CPU: 30 

State: running 

CPU time: 0.0s 

CPU Affinity: ------------------------------ y- 
VCPU: 3 

CPUs. 31 

State: running 

CPU time: 0.0s 

CPU Affinity: = y 


3.CPU 绑 定 技术 的 原理 


CPU 绑 定 实际 上 是 Libvirt 通 过 CGroup 来 实现 的 ， 通 过 CGroup 直 接 去 绑 定 KVM 虚 拟 机 进程 也 可 以 。 通 过 CGroup 不 仅 可 以 做 CPU 绑 定 ， 还 可 以 限制 虚拟 机 磁盘 、 网 络 的 资源 控制 ， 本 书 第 6 章 将 详细 介 
绍 CGroup 在 KVM 虚 拟 化 中 的 使 用 。 














4.CPU 绑 定 技术 的 应 用 场景 



































在 CPU 压力 比较 大 的 时 候 使 用 ， 就 要 考虑 使 用 CPU 绑 定 技术 。 根 据 笔者 的 经 验 ， 不 同 的 业务 场景 ， 使 用 CPU 绑 定 效果 不 一 样 ， 有 的 业务 性 能 有 20% 以 上 的 提升 。 









































笔者 还 碰 到 过 一 个 案例 ， 在 一 台 32 核 的 宿主 机 上 ， 有 一 台 虚 拟 机 压力 很 大 ， 宿 主机 的 前 3 个 CPU 利用 率 达 到 了 90% 以 上 ， 中 间 几 个 CPU 利用 率 为 60%~80%， 后 面 第 27~31 的 6 个 CPU 利用 率 只 有 4096， 
当时 业务 已 经 出 现 性 能 问题 ， 通 过 在 线 使 用 CPU 绑 定 技术 ， 将 压力 大 的 虚拟 机 绑 定 到 了 后 面 几 个 CPU 上 ， 解 决 了 问题 。 







































































所 以 CPU 绑 定 技术 适用 于 以 下 场景 : 











“ 系统 的 CPU 压力 比较 大 。 


- 多核 CPU 压力 不 平衡 ， 可 以 通过 cpu pinning 技 术 人 工 进 行 调配 。 


9... 


NUMA 在 虚拟 化 应 用 之 外 的 提示 : 

















某 些 应 用 ， 比 如 数据 库 ， 为 了 保证 性 能 ， 需 要 尽量 使 用 更 多 的 内 存 ， 如 果 使 用 系统 默认 的 NUMA 自 动 平衡 策略 ， 有 可 能 一 个 CPU 的 内 存 消耗 光 ， 另 外 一 个 CPU 还 有 大 量 的 内 存 可 以 使 用 ， 但 是 系统 却 去 
调度 swap 来 使 用 ， 造 成 性 能 严重 降低 。 使 用 这 些 内 存 消耗 型 的 应 用 时 ， 可 以 考虑 直接 将 系统 的 NUMA 自 动 平衡 策略 关闭 。 





5.CPU 绑 定 对 性 能 提升 的 测试 案例 
CPU 绑 定 到 底 对 性 能 影响 有 多 大 ， 笔 者 进行 了 一 个 简单 的 测试 。 
(1) 测试 环境 


硬件 : Intel (R) Xeon (R) CPU X5650@2.67GHz 2 颗 。 





软件 : CentOS 7 更 新 到 内 核 3.10.0-123.8.1.el7.x86_64。 





虚拟 机 : CentOS 7 更 新 到 内 核 3.10.0-123.8.1.el7.x86 64. 


虚拟 机 : CPU 一 颗 。 





测试 工具 : unixbench 5.1.2 (使 用 方法 及 分 项 测试 意义 在 第 15 章 有 介绍 ) 。 
(2) 测试 结果 


1) 不 做 CPU 绑 定 unixbench 的 得 分 : 





1 CPU in system; running 1 parallel copy of tests 

Dhrystone 2 using register variables 28890881.0 lps (10.0 s, 7 samples) 

Double-Precision Whetstone 3880.4 MWIPS (9.0 s, 7 samples) 
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System Benchmarks Index Score 1444.7 





2) 做 了 CPU 绑 定 unixbench 的 得 分 : 





1 CPU in system; running 1 parallel copy of tests 
Dhrystone 2 using register variables 29812559.6 lps (10.0 s, 7 samples) 
Double-Precision Whetstone 3928.7 MWIPS (8.9 s, 7 samples) 


System Benchmarks Index Score 1464.1 





(3) 简单 比较 


“ unixbench 综 合 得 分 (性 能 提升 1.34%) : 绑 定 一 一 1464.1; 不 绑 定 一 一 1444.7。 


" CPU 浮 


点 运算 (性 能 提升 1.24%) : 绑 定 一 一 3928.7; 不 绑 定 一 一 3880.4。 


6.CPU 绑 定 的 一 个 生产 环境 使 用 案例 











图 3-5 和 图 3-6 所 示 是 一 台 32 核 的 宿主 机 没有 做 CPU 绑 定 之 前 的 利用 率 ， 从 第 一 个 核 和 最 后 一 个 核 CPU 利用 率 的 比较 中 可 以 看 出 差距 较 大 。 
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图 3-6 ”未 做 CPU 绑 定之 前 的 CPU 31 利 用 率 
图 3-7 和 图 3-8 所 示 是 做 了 CPU 绑 定之 后 ， 第 一 个 核 和 最 后 一 个 核 CPU 利 用 率 差距 已 经 减少 ， 拉 平 了 整体 的 CPU 利 用 率 。 
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图 3-8 做 CPU 绑 定 之 后 CPU 31 利 用 率 


3.2 “CPU 热 添加 与 应 用 








CPU 热 添加 最 早 的 时 候 是 大 型 机 上 的 硬件 技术 ， 随 后 一 些 高 端的 X86 服务 器 也 支持 硬件 的 CPU 热 添加 。CPU 热 添加 也 需要 操作 系统 的 支持 ， 在 虚拟 化 上 CPU 热 添加 反而 变 得 容易 ， 因 为 虚拟 化 只 需要 修 
改 软 件 配置 就 可 以 ， 不 需要 做 硬件 配置 变更 。 





CPU 热 添加 是 CentOS 7 的 一 个 新 特性 ，Linux 系 统 要 求 宿主 机 和 虚拟 机 都 是 CentOS 7，Windows 虚 拟 机 系统 要 求 是 Windows Server 2008 数 据 中 心 版 或 者 Windows Server 2012 标 准 版 和 数据 中 心 
版 。 


1.Linux 系 统 的 CPU 热 添 加 


如 图 3-9 所 示 ， 在 给 虚拟 机 分 配 CPU 的 时 候 ， 就 要 预 留 足够 的 CPU。 





Overview 


Performance 


目前 的 分 配 (1 


Boot Options 最 大 分 配 重 
VirtlO Disk 1 


^ER 
IDE CDROM 1 


NIC :4d:49:5a » 拓扑 
表 » 定位 
FH 





图 3-9 CPU 热 添加 配置 


如 图 3-10 所 示 ， 在 虚拟 机 中 可 以 看 到 4 个 CPU。 





[rootàlocalhost ~]# cat /proc/1interrupts 


CPUO CPU2 


123 


CPUL 


OOOOOOoOoOoooooooooooooooo 
OOOOOOOoOOoOoooooooooooooo 


o 
"UU 
c 
w 


OOOOOOOOOoOoOooouooooooooo 


IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-fasteoi 
IO-APIC-fasteoi 
IO-APIC-fasteoi 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 


图 3-10 CPU 热 添加 前 进行 虚拟 机 CPU 查看 


把 CPU 在 线 修改 成 5 个 : 


timer 

18042 

floppy 

rtcO 

acpi 

virtio3 

uhci. hcd:usb1, qx] 
18042 . 

ata piix 

ata piix 
virtio2-config 
virtio2- requests 
virtio4-config 
virtio4- requests 
virtioO0-config 
virtioO-input.O 
virtioO-output.0 
virtio5-config 
virtio5-requests 
virtio6-config 
virtio6- requests 
virtio7-config 








virsh setvcpus CentOS7 5 --live 








在 虚拟 机 里 面 将 第 5 个 CPU 激活 : 





echo 1 »/sys/devices/system/cpu/cpu4/online 





如 图 3-11 所 示 ， 可 以 看 到 虚拟 机 的 CPU 已 经 变 成 了 5 个 : 











[root@localhost ~]# cat /proc/interrupts |less 


CPUO CPU1I CPU2 


CcOOOOOoOOooOcoooooorooooooooooo 


0 
0 
0 
0 
0 
0 
5 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


图 3-11 


我 们 也 可 以 查看 cpuinfo 的 信息 来 确认 CPU 增 加 了 。 


CPU3 


o 
卫 
c 
A 


OcOOOOOOOOOoOooooocoocuooooooooo 
CcCOOOOOOoOOoOOoOooooooooooooooooo 


热 添加 CPU 到 5 个 


IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-fasteoi 
IO-APIC-fasteoi 
IO-APIC-fasteoi 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 
PCI-MSI-edge 


timer 
18042 
floppy 
rtcO 
acpi 
virtio3 


uhci hcd:usbl, gxl 


18042 

ata piix 

ata piix 
virtio2-config 
virtio2-requests 
virtio4-config 
virtio4-requests 
virtioO0-config 
virtio0-input.O 
virtio0- -output.0 
virtio5-config 
virtio5- requests 
virtio6-config 
virtio6-requests 
virtio7-config 
virtio7-requests 
virtio8-config 
virtio8-requests 
virtiol-config 








cat /proc/cpuinfo 
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processor 
vendor id 
cpu family 
model 
model name 
stepping 
microcode 
cpu MHz 
cache size 
physical id 
siblings 
core id 
cpu cores 
apicid 


initial apicid : 


fpu 
fpu exception 
cpuid level 


wp 
flags 


: Intel(R) Xeon(R) CPU 
2 


: GenuineIntel 
:6 


X5650 @ 2.67GHz 


: yes 
: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov 


pat pse36 clflush mmx fxsr sse sse2 ss syscall nx pdpelgb 
rdtscp lm constant tsc arch perfmon rep good nopl pni 
pclmulqdq vmx ssse3 cx16 pcid sse4 1 sse4 2 x2apic popcnt aes 
hypervisor lahf lm tsc adjust 


bogomips : 5331.81 

clflush size : 64 

cache alignment : 64 

address sizes : 40 bits physical, 48 bits virtual 


power management: 








因为 一 开始 预 留 的 是 10 个 ， 所 以 最 多 的 时 候 ， 可 以 热 添 加 CPU 到 10 个 。 





virsh # setvcpus ct7 10 --live 





在 虚拟 机 上 执行 如 下 命令 : 





[root@localhost ~]# echo 1 »/sys/devices/system/cpu/cpu4/online 
[rootülocalhost ~]# echo 1 »/sys/devices/system/cpu/cpu5/online 
[rootülocalhost ~]# echo 1 »/sys/devices/system/cpu/cpu6/online 
[rootülocalhost ~]# echo 1 »/sys/devices/system/cpu/cpu?7/online 
[root(localhost ~]# echo 1 »/sys/devices/system/cpu/cpu8/online 
[rootülocalhost ~]# echo 1 »/sys/devices/system/cpu/cpu9/online 
[rootülocalhost ~]# echo 1 »/sys/devices/system/cpu/cpu9/online 





查看 cpuinfo， 已 经 是 10 个 CPU 了 。 





cat /proc/cpuinfo |grep processor |wc -1 
0 











目前 还 不 支持 CPU 热 去 除 ， 可 以 在 虚拟 机 里 面 关闭 CPU， 使 用 如 下 命令 : 











echo 0 >/sys/devices/system/cpu/cpu4/online 








但 是 在 宿主 机 上 如 果 要 把 CPU 个 数 改 小 ， 是 不 支持 的 。 





virsh # setvcpus ct7 4 --live 错 误 : 内 部 错误 : 无 法 更 改 这 个 域 的 vcpu 计数 





2.Windows 系 统 的 CPU 热 添 加 





Windows 系 统 也 一 样 ， 开 始 的 时 候 就 要 预 留 CPU ， 需 要 的 时 候 直接 添加 就 可 以 了 。 如 图 3-12 所 示 ， 未 做 CPU 添加 之 前 ， 有 4 个 CPU。 


Windows 版 本 
Windows Server 2012 R2 Datacenter 


评估 版 SE Windows Server2012 R2 


© 2013 Microsoft Corporation, Re 
所 有 权利 。 
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QEMU Virtual CPU version 1.5.3 2.67 GHz (4 AMERS) 


UU t nA 
8.00 GB 


64 位 操作 系统 ， 基 于 x64 的 处 理 圳 
没有 可 用 于 此 显示 露 的 笔 或 钥 皖 输入 





图 3-12 ”Windows 系 统 热 添加 CPU 之 前 


将 CPU 在 线 添 加 到 6 个 。 





virsh # setvcpus window2012 6 --live 








如 图 3-13 所 示 ， 添 加 之 后 ， 虚 拟 机 CPU 已 经 变 成 6 个 。Windows 系 统 CPU 添 加 后 直接 就 可 以 自动 刷新 出 来 ， 不 需要 做 特殊 配置 。 同 样 Windows 系 统 CPU 也 不 能 在 线 减 少 。 























Windows 版 本 





Windows Server 2012 R2 Datacenter 
评估 版 


© 2013 Microsoft Corporation, a 
所 有 权利 。 


EE Windows Server2012 R2 





QEMU Virtual CPU version 1.5.3 2.67 GHz (6 处 理 圳 ) 


8.00 GB 


hen i 


64 位 操作 系统 ， 基 于 x64 的 处 理 需 
没有 可 用 于 此 显示 露 的 笔 或 触 皖 输 入 





图 3-13 Windows 系 统 热 添加 CPU 之 后 


3.CPU 热 添加 技术 的 应 用 场景 











如 果 在 虚拟 机 运行 的 应 用 非常 重 
在 生产 环境 中 逐步 实践 。 























3.3 CPU host-passthrough 技 术 与 应 用 


1. 关 于 KVM 虚 拟 机 的 CPU 型 号 的 定义 


， 不 能 停机 而 性 能 严重 不 足 的 场景 ，CPU 热 添加 的 技术 是 一 个 很 好 的 解决 方案 。CPU 热 添加 的 技术 是 比较 新 的 技术 ， 要 求 的 宿 3 





为 了 保证 虚拟 机 在 不 同 宿主 机 之 间 迁 移 时 候 的 兼容 性 ，Libvirt 对 CPU 提炼 出 标准 的 几 种 类 型 ， 在 /usr/share/libvirt/cpu_map.xml 中 可 以 查 到 。cpu_map.xml 不 仅 是 CPU 型 号 ， 还 有 生产 商 信息 、 每 种 


型 号 的 CPU 特性 定义 等 信息 。 





«cpus» 
«arch name-'x86'» 
«!-- vendor definitions --> 
«vendor name-'Intel' string-'GenuineIntel'/» 
«vendor name-'AMD' string-'AuthenticAMD'/» 
«!-- standard features, EDX --» 
«feature name-'fpu'» «!-- CPUID FP87 --» 
«cpuid function-'0x00000001' edx-'0x00000001'/» 
X/feature» 
«feature name-'vme'» «!-- CPUID VME 一 -> 
<cpuid function-'0x00000001' edx-'0x00000002'/» 
X/feature» 
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«!-- models --> 
«model name-'486'» 
«feature name-'fpu'/» 
«feature name-'vme'/» 
«feature name-'pse'/» 
«/model» 
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«model name-'Haswell'» 
«model name-'SandyBridge'/» 
«feature name-'fma'/» 
«feature name-'pcid'/» 
«feature name-'movbe'/» 
«feature name-'fsgsbase'/» 
«feature name-'bmil'/» 
«feature name-'hle'/» 
«feature name-'avx2'/» 
«feature name-'smep'/» 
«feature name-'bmi2'/» 
«feature name-'erms!/» 
«feature name-'invpcid'/» 
«feature name-'rtm'/» 

«/model» 
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CentOS 6.6 所 带 的 Libvirt 主 要 规定 了 以 下 几 种 CPU 型 号 : '486', 'pentium', 'pentium2', 


'pentium3', 'pentiumpro', 'coreduo', 'pentiumpro', 'n270', 'coreduo', 'core2duo', 'qemu32', 


'kvm32', 'cpu64-rhel5', 'cpu64-rhel6', 'kvm64', 'qemu64', 'Conroe', 'Penryn', 'Nehalem"Westmere', 'SandyBridge'. 'Haswell'; 'athlon'. 'phenom', 'Opteron G1', 'Opteron G2', 
'Opteron G3', 'Opteron G4', 'Opteron G5', 'POWERZ', 'POWER7 v2.1', 'POWER7 v2.3', 


2.CPU 模 式 配置 
CPU 配置 模式 可 以 有 以 下 几 种 。 
(1) custom 模 式 


xm 配置 文件 如 下 : 





<cpu mode-'custom' match-'exact'» 
«model fallback-'allow'»kvm64«/model» 
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«feature policy-'require' name-'monitor'/» 
</cpu> 


和 机、 虚拟 机 操作 系统 比较 新 ， 还 要 待 





(2) host-model 模 式 











根据 物理 CPU 的 特性 ， 选 择 一 个 最 靠近 的 标准 CPU 型 号 。 如 果 没有 指定 CPU 模式 ， 默 认 也 是 使 用 这 种 模式 ，xm| 配 置 文件 如 下 : 














«cpu mode-'host-model' /> 





(3) host-passthrough 模 式 











直接 将 物理 CPU 暴露 给 虚拟 机 使 用 ， 在 虚拟 机 上 完全 可 以 看 到 的 就 是 物理 CPU 的 型 号 ，xm 配 置 文件 如 下 : 














«cpu mode-'host-passthrough'/» 











使 用 host-model 看 到 的 VCPU 如 下 : 











processor i3 

vendor id : GenuineIntel 

cpu family :6 

model : 44 

model name : Westmere E56xx/L56xx/X56xx (Nehalem-C) 
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使 用 host-passthrough 看 到 的 VCPU 如 下 : 








processor $3 

vendor id : GenuineIntel 

cpu family :6 

model : 44 

model name : Intel(R) Xeon(R) CPU X5650 Q9 2.67GHz 




















可 以 看 到 ， 使 用 host-model 模 式 ，Libvir 会 根据 物理 CPU 的 型 号 ， 从 规定 的 CPU 中 选择 一 种 最 接近 的 CPU 型 号 ， 而 使 用 host-passthrough 模 式 直 接 看 到 的 就 物理 CPU 的 型 号 。 
































3.CPU host-passthrough 技 术 的 应 用 场景 























HOST 技术 适用 于 以 下 场景 : 





- 需要 将 物理 CPU 的 一 些 特性 传 给 虚拟 机 使 用 ， 比 如 使 用 虚拟 机 谋 套 的 nested 技 术 的 时 候 。 





“ 需要 在 虚拟 机 里 面 看 到 和 物理 CPU 一 模 一 样 的 CPU 品牌 型 号 ， 这 个 在 一 些 公有 云 很 有 意义 ， 用 户 体 验 比较 好 。 


Q.. 


使 用 CPU host-passthrough 技 术 需 要 注意 ， 不 同型 号 CPU 的 宿主 机 之 间 虚 拟 机 不 能 迁移 。 


34 CPU Nested 技 术 与 配置 方法 

















Nested 技 术 ， 简 单 地 说 ， 就 是 在 虚拟 机 上 运行 虚拟 机 ， 即 KVM on KVM。KVM 虚 拟 机 嵌 套 和 VMWare 原 理 不 同 ，VMWare 第 一 层 是 用 的 硬件 虚拟 化 技术 ， 第 二 层 就 是 完全 软件 模拟 出 来 的 ， 所 以 
VMWare 只 能 做 两 层 嵌 套 。KVM 是 将 物理 CPU 的 特性 全 部 传 给 虚拟 机 ， 所 以 理论 上 可 以 谋 套 N 多 层 ， 但 是 事实 上 笔者 测试 的 时 候 ， 跑 了 两 层 就 已 经 非常 慢 了 。 




















CentOS 7 官方 宣称 不 正式 支持 Nested 技 术 ， 所 以 测试 的 时 候 建议 使 用 Fedora 测 试 ， 笔 者 测试 使 用 的 是 Fedora 21, 











Nested 配 置 方法 如 下 。 


第 一 步 : 打开 KVM 内 核 模块 的 Nested 特 性 。 


rmmode kvm-intel 
modprobe kvm-intel nested-1 





或 者 修改 modprobe.d， 编 辑 /etc/modprobe.d/kvm_mod.conf， 添 加 以 下 内 容 : 





options kvm-intel nested-y 





























然后 使 用 rmmod kvm-intel 命 令 删除 kvm-intel 模 块 ， 再 通过 modprobe kvm-intel 命 令 加 载 kvm-intel 模 块 ， 编 辑 modprobe.d 配 置 文件 ， 就 不 用 在 加 载 模块 的 时 候 带 参数 。 











检查 是 否 打开 Nested 功 能 ， 可 以 查看 /sys/module/kvm _intel/parameters/nested 的 内 容 ， 为 Y 表 示 打 开 Nested 特 性 。 





cat /sys/module/kvm intel/parameters/nested 
hd 

















第 二 步 : 第 一 层 的 虚拟 机 配置 文件 ， 要 将 物理 机 CPU 的 特性 全 部 传 给 虚拟 机 ， 使 用 CPU HOST 技术 。 














«cpu mode='host-passthrough' /> 








第 三 步 : 和 宿主 机 一 样 ， 将 第 一 层 虚 拟 机 按照 宿主 机 配置 ， 安 装 相应 的 组 件 ， 然 后 就 可 以 安装 第 二 层 的 虚拟 机 了 。 
































到 3-14 所 示 是 三 层 Fedora 21 嵌 套 的 效果 (fedora21 on fedaro21 kvm on fedaro21 kvm) , 








m NERURANSHI p 
虚拟 系统 管理 器 
文件 (F) 编辑 (E) 查看 (V) 帮助 (H) 
区 — m T 
2 文件 (F) ”虚拟 机 (M) ”查看 (v) “发送 按键 (K) 


* localhost (QEMU) = a ~ B 


f21-on-f21 虚拟 机 


Sat 20:03 


Activities JW irtual Machine Manager * 


f21-on-f21-0on-f21 Virtual Machine 
File Virtual Machine View Send Key 
m, m 加 -~ G 


Fedora release 21 (Twenty One) 
Kernel 3.17.1-302.fc21.x86 64 on an x86 64 (ttu1) 


localhost login: _ 





图 3-14 Fedora 21 中 识 套 两 层 虚 拟 机 的 情况 


3.5 KSM 技 术 与 应 用 


1. 宿 主机 内 存 合并 (压缩) 





宿主 机 的 内 存 压 缩 主要 采用 KSM (Kernel SamePage Merging) 技术 ， 原 理 和 软件 压缩 类 似 ， 就 是 将 相同 的 内 存 分 页 进行 合并 。KSM 在 CentOS 6、CentOS 7 上 默认 是 打开 的 ， 主 要 有 两 个 服务 : 





























. KSM 服 务 。 
"ksmtuned 服 务 。 


要 关闭 KSM， 关 闭 相关 的 两 个 服务 就 可 以 。 


service ksm stop 
service ksmtuned stop 
chkconfig ksm off 
chkconfig ksmtuned off 


9... 
如 果 需 要 打开 或 者 关闭 KSM， 在 生产 环境 中 可 以 直接 在 线 操作 ， 系 统 会 逐步 合并 或 者 释放 内 存 页 ， 对 业务 是 没有 影响 的 。 所 以 当 宿 主机 内 存 不 足 时 ， 临 时 打开 KSM 也 是 一 种 应 急 方案 。 


2. 阻 止 个 别 虚 拟 机 进行 内 存 压 缩 的 方法 








使 用 nosharepages 关 键 字 阻止 宿主 机 将 特定 的 虚拟 机 内 存 页 合并 ，xml 配 置 文件 如 下 : 




















<memoryBacking> 
<nosharepages/> 
</memoryBacking> 


3. 查 看 KSM 运 行 的 情况 
在 /sys/kernel/mm/ksm/ 中 可 以 看 到 KSM 运 行 的 情况 。 
“ pages shared: 有 多 少 共享 内 存 页 正在 被 使 用 。 
“ pages_sharing: how 有 多 少 节点 被 共享 并 且 多 少 被 保存 。 
“ pages_unshared: 内 存 被 合并 时 有 多 少 内 存 页 独特 但 是 反复 被 检查 。 
' pages volatile: 多 少 内 存 页 改变 太 快 被 放置 。 


* full scans: 多 少 次 可 以 合并 区 域 被 扫描 。 














4.KSM 技 术 的 应 用 场景 




































































在 生产 环境 中 一 般 要 愤 用 KSM 技 术 ， 因 为 打开 KSM 就 是 为 了 内 存 超 用 ， 这 在 业务 压力 比较 大 ， 虚 拟 机 内 存 变化 非常 频繁 的 时 候 ， 将 导致 两 个 结果 : 








' 一 是 会 消耗 一 定 的 计算 机 资源 用 于 内 存 扫描 ， 加 重 CPU 的 消耗 。 


“ 二 是 因为 是 内 存 超 用 ， 当 内 存 不 够 的 时 候 ， 只 能 是 频繁 地 使 用 swap 交 互 ， 导 致 虚拟 机 性 能 严重 下 降 。 
































但 是 在 测试 环境 和 桌面 虚拟 化 这 样 的 场景 中 就 很 适合 使 用 KSM 技 术 ， 因 为 测试 环境 一 般 压力 都 不 太 高 ， 能 容忍 虚拟 机 性 能 突然 下 降 ， 打 开 KSM 可 以 节约 大 量 的 内 存 ， 多 部 署 一 些 虚 拟 机 出 来 。 在 桌 
拟 化 中 ， 往 往 虚拟 机 的 操作 系统 都 是 一 样 的 ， 打 开 KSM ， 内 存 压 缩 的 效果 就 非常 明显 ， 只 要 控制 好 内 存 超 用 的 范围 就 好 了 。 













































































KSM 应 用 场景 总 结 如 下 : 











. 生产 环境 慎 用 。 
. 测试 环境 推荐 使 用 。 


“ 桌面 虚拟 机 推荐 使 用 ,但 是 要 根据 实际 情况 控制 内 存 超 用 的 比率 。 


3.6 ”内 存 气 球技 术 详 解 与 应 用 


1. 宿 主机 内 存 气 球技 术 配 置 








KVM 的 内 存 气 球技 术 可 以 在 虚拟 机 之 间 按 照 需要 调节 内 存 大 小 ， 提 高 内 存 的 利用 率 。 




















使 用 的 时 候 ， 虚 拟 机 需要 安装 virt balloon 的 驱动 ， 内 核 开启 CONFIG_VIRTIO_BALLOON。CentOS 7 默认 已 经 开启 ， 并 且 默 认 已 经 安装 virt balloon 驱 动 。 如 图 3-15 所 示 ， 在 虚拟 机 中 可 以 看 到 有 一 个 
名 为 Virtio memory balloon 的 PCI 设 备 。 


























CentOS Linux 7 (Core) 
Kernel 3.10.0-123.e17.x86_64 on an x86_64 


localhost login: root 

Passuord : 

{Last login: Fri Sep 5 10:57:35 on ttu1 

[root& localhost ~ ]# lspci 
:00.0 Host bridge: Intel Corporation 440FX - 82441FX PMC [Natoma] (reu 02) 

00:01.0 ISA bridge: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II] 
J:01.1 IDE interface: Intel Corporation 823713B PIIX3 IDE I[Natoma/Triton II] 

00:01.2 USB controller: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (reu 01) 
:01.3 Bridge: Intel Corporation 823716B/EB/MB PIIX4 ACPI (reu 03) 
:02.0 UGA compatible controller: Red Hat, Inc. (XL paravirtual graphic card (reu 04) 
:03.0 Ethernet controller: Red Hat, Inc Uirtio netuork deuice 
:04.0 Audio device: Intel Corporation 82801FB^/FBM/FR^/FU^/FRU (ICH6 Family) High Definition fiudio Con 
:05.0 Communication controller: Red Hat, Inc Uirtio console 
):06.0 SCSI storage controller: Red Hat, Inc Uirtio block device 
:07.0 Unclassified device [00ffl: Red Hat, Inc Uirtio memory balloon 

[root?& localhost ”~]# es a 





图 3-15 ”虚拟 机 的 virt balloon 4 


虚拟 机 .xm 配置 文件 需要 增加 以 下 配置 : 


«memballoon model-'virtio'» 
«alias name-'balloon0'/» 
«/memballoon» 


balloon 有 两 种 操作 。 
“ 膨胀 : 虚拟 机 的 内 存 被 拿 掉 给 宿主 机 。 


“压缩; 宿主 机 的 内 存 还 给 虚拟 机 。 

















气球 技术 最 大 的 优点 是 内 存 可 以 超 用 ; 缺点 是 有 可 能 造成 内 存 不 够 使 用 而 影响 性 能 。 

















2. 虚 拟 机 内 存 气 球 配置 


(1) Linux 系 统 配置 























查看 当前 内 存 大 小 ， 使 用 virsh qemu-monitor-command 命 令 。 


virsh qemu-monitor-command ct7 --hmp --cmd info balloon 
balloon: actual-4096 


限制 内 存 大 小 为 2GB 并 查看 。 


virsh qemu-monitor-command ct7 --hmp --cmd balloon 2048 
virsh qemu-monitor-command ct7 --hmp --cmd info balloon 
balloon: actual-2048 








辐 3-16 所 示 是 在 虚拟 机 中 通过 free 命 令 查看 内 存 限制 效果 。 








[roota localhost ^ ]# free -m 
total used free shared buffers cached 


en: 1680 251 1429 8 0 85 
/* buffers/cache: 164 1515 
TETE 3983 0 3983 


图 3-16 ”限制 内 存 大 小 为 2GB 时 虚拟 机 内 存 情况 





限制 内 存 大 小 为 4GB 并 查看 。 


virsh # qemu-monitor-command ct7 --hmp --cmd balloon 4096 
virsh # qgemu-monitor-command ct7 --hmp --cmd info balloon 
balloon: actual-4096 








3-17 所 示 是 在 虚拟 机 中 通过 free 命 令 查看 内 存 限制 效果 。 








D 





IFrrootelocalhost ~l# free -m 
total used shared buffers cached 


3728 252 8 0 85 
buffers/cache: 166 
wap: 3983 0 
[root? localhost ”]# 





图 3-17 限制 内 存 大 小 为 4GB 时 虚拟 机 内 存 情况 


限制 内 存 大 小 为 8GB 并 查看 。 


virsh # qemu-monitor-command ct7 --hmp --cmd balloon 8192 
virsh # gemu-monitor-command ct7 --hmp --cmd info balloon 
balloon: actual-8192 








图 3-18 所 示 是 在 虚拟 机 中 通过 free 命 令 查 看 内 存 限制 效果 。 











[root? localhost ~lt free -m 
total shared buffers cached 


em: 7824 8 0 85 


/* buffers^/cache: 
3983 
[root? localhost "1]t8 





图 3-18 ”限制 内 存 大 小 为 8GB 时 虚拟 机 内 存 情况 














要 实现 虚拟 机 内 存 气球 的 自动 平衡 ， 可 以 根据 自己 的 业务 情况 ， 编 写 脚本 来 实现 。 




















(2) Windows 系 统 配置 



































Windows 系 统 的 使 用 方法 与 Linux 系 统 类 似 ， 但 是 Windows 系 统 能 看 到 整体 分 配 的 内 存 ， 然 后 通过 内 存 气 球技 术 来 限制 系统 可 以 分 配 的 内 存 。 具 体 步骤 如 下 。 














第 1 步 : 安装 virt balloon 设 备 驱动 ， 安 装 完成 后 ， 如 图 3-19 所 示 ， 就 可 以 看 到 一 个 virt balloon 的 PCI 设 备 。 











4 NE 系统 设备 
JE ACPI Fixed Feature Button 
jE High Definition Audio 控制 器 
ji Intel 823715B PCI to ISA bridge 
JI. Intel 82441FX Pentium(R) Pro Processor to PCI bridge 
jJ. Microsoft ACPI-Compliant System 
JI. Microsoft System Management BIOS Driver 
JI Microsoft 虚拟 驱动 器 朴 学 器 
jM NDIS AHASS 
i PCI bus 
jE System CMOS/real time clock 
j= UMBus Root Bus Enumerator 
jm VirtIO Balloon Driver 
JI. VirtIO-Serial Driver 
PI 
JE 即 桥 即 用 软件 设备 板 举 器 
NM 远程 桌面 设备 重 定 向 程序 总 绪 


图 3-19 ”Windows 系 统 的 balloon 设 备 




















第 2 步 : 安装 内 存 气球 服务 ， 如 图 3-20 所 示 。 











D: «JINB*-HAMD643»BLHSUHR.ESE =i 
Service Installed 


$ervice 13 starting. .-- 


Service RUNNING. 


D: «UIHS*AMD64». 


图 3-20 ”Windows 系 统 balloon 服 务 安装 





h # qem ommand 14 --hmp --cmd ball 512 
virsh # qem command 14 --hmp --cmd ball 2048 
virsh # qem ommand 14 --hmp --cmd ball 4096 

# mmand 14 --hmp --cmd ball 8192 








如 图 3-21 所 示 ， 可 以 明显 看 到 内 存 变化 。 











8.0 GB RAM 


B.0 GB 


























使 用 中 可 用 速度 : 18756 ... 
701 MB 7.3 GB 已 使 用 的 搬 模 无 


Ez. s DIMM 


Di D 为 硬件 保留 的 内 存 : 04MB 


0.9/9.9GB 233 MB 


页 面 编 中 池 。 ”” 非 页 面 编 中 池 
70.3 MB 31.2 MB 


图 3-21 Windows 系 统 balloon 内 存 变 化 














3. 内 存 气 球技 术 应 用 场景 









































如 果 有 两 种 或 者 几 种 不 同业 务 的 虚拟 机 在 同一 台 宿 主机 上 ， 可 以 考虑 使 用 气球 技术 ， 在 不 同 的 时 间 段 释放 或 者 申请 内 存 ， 这 样 可 以 提高 内 存 利 用 率 。 往 往 要 达到 效果 ， 需 要 编写 一 个 脚本 ， 通 过 时 间或 
者 一 定 的 触发 条 件 和 虚拟 机 互动 来 调整 内 存 。 














3.7 ”内 存 限制 技术 与 应 用 


1. 内 存 限 制 技术 详解 


可 以 将 虚拟 机 的 内 存 限 定 在 一 定 的 范围 内 ， 可 以 通过 virsh 命 令 行 限制 内 存 ， 也 可 以 编辑 .xml 文 件 ， 命 令 行 格式 为 : 





virsh memtune virtual machine --parameter size 


可 选 的 参数 如 下 。 

“ hard limit: 虚拟 机 可 以 使 用 的 最 大 内 存 ， 单 位 为 kibibytes (blocks of 1024 bytes) 。 
* soft limit: 竞争 时 的 内 存 ， 音 位 为 kibibytes (blocks of 1024 bytes) 。 

* swap hard limit: 最 大 内 存 加 swap， 单 位 为 kibibytes (blocks of 1024 bytes) 。 


' min guarantee: 最 低 保 证 给 虚拟 机 使 用 的 内 存 ， 单 位 为 kibibytes (blocks of 1024 bytes) 。 








应 用 示例 : 




















1) 限制 虚拟 机 c7 最 大 使 用 9GB 内 存 ， 写 到 配置 文件 中 ， 下 次 重启 虚拟 机 进程 生效 。 








memtune c7 --hard-limit 9437184 --config 





2) 限制 虚拟 机 c7 竞 争 时 为 7GB 内 存 。 








memtune c7 --soft-limit 7340032 --config 














3) 限制 虚拟 机 c7 最 大 内 加 可 以 使 用 的 宿主 机 swap 不 超过 10GB 内 存 。 














memtune c7 --swap-hard-limit 10488320 --config 














4) 保证 虚拟 机 c7 最 少 可 以 使 用 4GB 内 存 。 














memtune c7 --min guarantee 4194304 --config 





注意 ，memtune 生 效 方式 有 3 种 。 

:—config: 写 到 配置 文件 中 ， 下 次 重启 虚拟 机 进程 生效 。 

dive: 影响 正在 运行 的 虚拟 机 ， 虚 拟 机 进程 停止 后 ， 效 果 消失 ， 这 是 默认 的 方式 。 
occurrent: 影响 停止 和 正在 运行 的 虚拟 机 ， 如 果 虚 拟 机 运行 ， 虚 拟 机 进程 停止 后 ， 效 果 消 失 。 


如 果 虚 拟 机 未 运行 ， 写 入 到 .xm 配置 文件 中 ， 对 应 的 .xml 文 件 如 下 : 





«memory unit-'KiB'»8388608«/memory» 
«currentMemory unit-'KiB'»4194304«/currentMemory» 
«memtune» 
«hard limit unit-'KiB'29437184«/hard limit» 
«soft limit unit-'KiB'»7340032«/soft limit» 
«min guarantee unit-'KiB'24194304«/min guarantee» 
«swap hard limit unit-'KiB'210488320«/Swap hard limit» 
</memtune> 





还 可 以 限制 虚拟 机 对 宿主 机 swap 的 使 用 ， 主 要 是 通过 .xml 文 件 的 <memoryBacking> 标 签 来 实现 的 。 





<memoryBacking> 标 签 包含 一 些 元 素 影响 宿主 机 对 虚拟 内 存 页 的 支持 。 





<memoryBacking> 
<locked/> 
</memoryBacking> 








locked 阻 止 宿主 机 将 swap 内 存 (交换 分 页 内 存 ) 分 配给 虚拟 机 。 设 置 locked 参 数 ， 必 须 在 <memtune> 块 中 设置 hard_limit。 


2. 内 存 限制 技术 的 应 用 场景 





内 存 限制 技术 可 以 和 内 存 气 球技 术 结合 ， 将 内 存 气 球技 术 限 制 在 一 定 范围 内 ， 避 免 内 存 被 气球 无 限 压缩 。 


3.8 ”巨型 页 内 存 技术 与 应 用 


1. 巨 型 页 与 透明 巨型 页 








X86 默 认 的 内 存 页 大 小 是 4KB， 但 是 也 可 以 使 用 2MB 或 者 1GB 的 巨型 页 ， 系 统 的 巨型 页 可 以 传输 过 虚拟 机 ，KVM 虚 拟 机 可 以 通过 分 配 巨 型 页 提高 性 能 。 
CentOS 6 上 面 启 




















一 种 叫 作 透 明 巨 型 页 的 技术 ， 默 认 开 启 巨 型 页 ， 并 且 可 以 自动 调整 。 












































使 用 巨型 页 可 以 提升 内 存 的 分 配 效率 ， 提 升 系统 性 能 。 巨 型 页 可 以 手工 配置 ， 也 可 以 使 用 透明 巨型 页 技术 。 





















































使 用 透明 巨 页 内 存 的 好 处 : 


:可 以 使 用 swap， 内 存 页 默认 大 小 是 2MB ， 需 要 使 用 swab 的 时 候 ， 内 存 被 分 割 为 4KB。 
“ 对 用 户 透 明 ， 不 需要 用 户 做 特殊 配置 。 
“ 不 需要 toot 权 限 。 


“ 不 需要 依赖 菜 种 库 文 件 。 


2. 透 明 巨 型 页 内 存 配置 




















CentOS 6.x 默 认 启用 透明 巨型 页 内 存 。 查 看 目前 状态 : 


























巨型 页 可 以 手工 配置 的 坏处 : 必须 手工 配置 ， 虚 拟 机 的 数量 、 可 用 的 内 存 、 虚 拟 机 的 启动 、 关 闭 、 迁 移 都 需要 重新 配置 ， 并 且 不 能 




















swap. 


CentOS 5 上 

















， 需 要 手工 配置 巨型 





cat /sys/kernel/mm/transparent hugepage/enabled 
[always] madvise never 





修改 配置 : 





echo never >/sys/kernel/mm/transparent hugepage/enabled 





参数 说 明 如 下 : 


' never: 关闭 ， 不 使 用 透明 内 存 。 


away: 尽量 使 用 透明 内 存 ， 扫 描 内 存 ， 有 512 个 4KB 页 面 可 以 整合 ， 就 整合 成 一 个 2MB 的 页 面 。 


: madvise: 避免 改变 内 存 占用 。 








情况 监控 : 





可 


以 查看 /sys/kernel/mm/transparent_hugepage/khugepaged 下 的 信息 。 





- pages to scan (默认 4096=16MB) : 一 个 扫描 周期 被 扫描 的 内 存 页 数 。 
“scan_sleep_millisecs (默认 10000=10sec) : 多 长 时 间 扫描 一 次 。 
' alloc_sleep_millisecs (默认 60000=60sec) : 多 长 时 间 整 理 一 次 碎片 。 


也 可 以 查看 /proc/meminfo 信 息 。 





grep Huge /proc/meminfo 


AnonHugePages: 266240 kB 
HugePages Total: 0 
HugePages Free: 0 
HugePages Rsvd: 0 


HugePages Surp: 
Hugepagesize: 2048 kB 








使 用 注意 要 点 : 虚拟 机 和 宿主 机 都 需要 启动 THP， 这 样 可 以 获得 以 下 好 处 。 





“ 唐 拟 机 的 CPU 可 以 使 用 2MB 的 TLB。 
“ 相同 的 算法 。 

“ 相同 的 代码 。 

: 相同 的 内 核 镜像 。 
3. 巨 型 页 手工 配置 


(1) 虚拟 机 巨型 页 手工 配置 














有 的 场景 需要 手工 配置 虚拟 机 可 以 使 用 的 巨型 页 数量 。 通 过 配置 虚拟 机 .xml 文 件 ， 可 以 指定 虚拟 机 可 以 使 


























的 巨型 页 数量 。 





«memoryBacking» 
«hugepages/» 
«/memoryBacking» 











(2) 巨型 页 使 用 检查 








要 查看 当前 巨型 页 使 用 情况 ， 使 用 如 下 命令 : 








cat /proc/sys/vm/nr hugepages 





查看 当前 的 巨型 页 值 ， 命 令 如 下 : 





View the current huge pages value: 
# cat /proc/meminfo | grep Huge 
kB 


AnonHugePages: 2048 
HugePages Total: 0 
HugePages Free: 0 
HugePages Rsvd: 0 
HugePages Surp: 
Hugepagesize: 2048 kB 





(3) 修改 宿主 机 巨型 页 数量 





巨型 页 默认 大 小 是 2MB， 可 以 通过 如 下 命令 修改 可 以 使 用 的 巨型 页 数量 : 











echo 25000 > /proc/sys/vm/nr_hugepages 











或 者 使 用 sysctl 命 令 ，N 是 要 设置 的 巨型 页 数量 : 














sysctl vm.nr hugepages-N 





挂 载 巨型 页 ， 命 令 如 下 : 





mount -t hugetlbfs hugetlbfs /dev/hugepages 





重启 libvirtd 服 务 和 虚拟 机 : 








systemctl start libvirtd 
virsh start virtual machine 





(4) 关闭 巨型 页 


关闭 巨型 页 ， 命 令 如 下 : 





sysctl vm.nr hugepages-0 
umount hugetlbfs 











4. 内 存 巨 型 页 的 应 用 场景 





























对 于 生产 环境 是 CentOS 6、CentOS 7 的 宿主 机 ， 默 认 是 打开 透明 巨型 页 并 且 是 自动 调整 的 ， 所 以 不 需要 我 们 做 过 多 的 设置 。 但 是 可 以 监控 巨型 页 的 使 用 分 配 ， 在 内 存 遇 到 新 颈 的 时 候 ， 方 便 查 找 原 











39 ”本 章 小 结 








本 章 介绍 了 KVM 虚 拟 化 CPU、 内 存 技术 ， 如 果 在 生产 环境 中 遇 到 CPU 压力 比较 高 的 情况 ，CPU 的 绑 定 是 一 个 有 效 的 技术 解决 手段 。 一 般 在 生产 环境 中 ， 内 存 限制 技术 建议 愤 用 。 目 前 服务 器 内 存 相 对 比 
较 便 宜 ， 建 议 宿主 机 的 内 存 尽量 配置 高 一 些 。 























下 一 章 将 为 读者 介绍 KVM 虚 拟 化 网 络 技术 及 应 用 场景 。 


SEATS “网络 虚拟 化 技术 与 应 用 场景 








本 章 将 为 读者 详细 介绍 KVM 虚 拟 化 中 的 网 络 技术 ， 以 及 每 种 技术 的 应 用 场景 。 如 图 4-1 所 示 ， 一 个 完整 的 数据 包 从 虚拟 机 到 物理 机 的 路 径 是 : 虚拟 机 一 QEMU 虚 拟 网 卡 一 虚拟 化 层 一 内 核 网 桥 一 物理 网 

















图 4-1 数据 包 从 虚拟 机 到 物理 机 的 过 程 





KVM 的 网 络 优化 方案 ， 总 的 思路 就 是 让 虚拟 机 访问 物理 网 卡 的 层 数 更 少 ， 直 至 对 物理 网 卡 单独 占领 ， 和 物理 机 一 样 使 用 物理 网 卡 ， 以 达到 和 物理 机 一 样 的 网 络 性 能 。 























本 章 也 会 介绍 笔者 积累 的 网 络 性 能 测试 方法 和 测试 数据 ， 读 者 一 方面 可 以 对 不 同 网 络 配置 的 性 能 差距 有 所 认识 ， 另 一 方面 也 可 以 对 网 络 测试 需要 重点 测试 哪些 指标 有 所 了 解 ， 这 些 都 可 以 应 用 到 自己 的 
虚拟 化 网 络 环境 测试 部 署 中 。 






































Open vSwitch 是 最 近 两 三 年 虚拟 化 的 一 个 热点 ， 它 主要 是 解决 虚拟 化 网 络 的 管理 问题 。Open vSwitch 一 方面 将 宿主 机 内 部 的 网 络 和 物理 网 络 打通 ， 方 便 网 络 管理 员 的 管理 ; 另 一 方面 整合 了 虚拟 化 网 
络 管理 方面 的 需求 ， 实 现 了 通过 一 个 统一 的 工具 管理 虚拟 化 网 络 。 











4.1 半 虚 拟 化 网 卡 技术 详解 


























在 KVM 中 ， 默 认 情 况 下 网 络 设备 是 由 QEMU 在 Linux 的 用 户 空间 模拟 出 来 并 提供 给 虚拟 机 的 。 这 样 做 的 好 处 是 通过 模拟 可 以 提供 给 虚拟 机 多 种 类 型 的 网 卡 ， 提 供 最 大 的 灵活 性 。 但 是 由 于 网 络 /O 的 过 程 
需要 虚拟 化 引擎 参与 ， 由 此 产生 了 大 量 的 vm exit, vm entry， 效 率 低下 。 所 以 产生 了 全 虚拟 化 网 卡 和 半 虚 拟 化 网 卡 技术 。 全 虚拟 化 和 半 虚 拟 化 在 第 1 章 已 经 有 了 详细 介绍 ， 再 简单 回顾 一 下 。 

















“ 全 虚拟 化 : 即 客户 机 操作 系统 完全 不 需要 修改 就 能 运行 于 虚拟 机 中 ， 客 户 机 看 不 到 真正 的 硬件 设备 ， 与 设备 的 交互 全 是 由 纯 软 件 虚 拟 的 。 


“ 半 虚 拟 化 : 通过 对 客户 机 操作 系统 进行 修改 ,使 其 意识 到 自己 运行 在 虚拟 机 中 。 因 此 ， 全 虚拟 化 与 半 虚 拟 化 的 根本 区 别 在 于 客户 机 是 否 需 要 修改 才能 运行 在 宿主 机 中 。 




















虚拟 化 网 卡 与 全 虚拟 化 网 卡 的 区 别 是 全 虚拟 化 网 卡 是 虚拟 化 层 完全 模拟 出 来 的 网 卡 ， 半 虚拟 化 网 卡通 过 驱动 对 操作 系统 做 了 改造 。 在 实际 应 用 中 ， 使 用 较 多 的 是 半 虚 拟 化 网 卡 技术 ， 即 Virtio 技 术 。 如 
图 4-2 所 示 ，Virtio 驱 动因 为 改造 了 虚拟 机 操作 系统 ， 让 虚拟 机 可 以 直接 和 虚拟 化 层 通信 ， 从 而 大 大 提高 了 虚拟 机 的 性 能 。 
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图 4-2 Virtio 网 卡 的 原理 示意 图 





4.1.1 半 虚 拟 化 网 卡 的 配置 



































解决 全 虚拟 化 网 卡 效率 低下 的 一 个 办 法 就 是 使 用 半 虚 拟 化 驱动 程序 Virtio。 要 使 用 Virtio 必 须要 在 宿主 机 和 客户 机 中 分 别 安装 Virtio 驱 动 ， 这 样 客户 机 的 MO 就 可 以 以 Virtio 的 标准 接口 来 进行 ， 而 虚拟 化 
引擎 不 需要 捕捉 这 些 |/O 请 求 ， 这 样 就 提高 了 性 能 。 





























1. 系 统 对 Virtio 的 支持 



































Linux 内 核 从 2.6.24 开 始 支持 Virtio， 因 此 宿主 机 只 需要 较 新 的 Linux 内 核 即 可 。 对 于 虚拟 机 来 说 ，Linux 发 行 版 如 RHEL 6.x、Ubuntu 等 都 自 带 Virtio 驱 动 模块 。 为 了 确定 系统 是 否 支 持 Virtio， 可 以 查看 内 


核 配 置 文件 ， 示 例如 下 ， 如 果 输 出 包含 Virtio 关 键 字 ， 就 是 支持 Virtio。 





[rootélocalhost ~]# grep -i Virtio /boot/config-2.6.32-358.2.1.e16.x86 64 
CONFIG NET 9P VIRTIO-m 
CONFIG VIRTIO BLK-m 
CONFIG SCSI VIRTIO-m 
CONFIG VIRTIO NET-m 
CONFIG VIRTIO CONSOLE-m 
CONFIG HW RANDOM VIRTIO-m 
CONFIG VIRTIO-m ^ 

CONFIG VIRTIO RING-m 
CONFIG VIRTIO PCI-m 
CONFIG VIRTIO BALLOON-m 








Windows 虚 拟 机 则 需要 额外 安装 Virtio 的 Windows 版 驱动 ， 具 体 安装 方法 请 参见 第 16 章 Windows 镜 像 制 作 。 
2. 配 置 半 虚 拟 化 网 卡 


配置 半 虚 拟 化 网 卡 的 方法 有 两 种 。 





1) 在 虚拟 机 启动 命令 中 加 入 virtio-net-pci 参 数 。 





[rootülocalhost ~]# QEMU-system-x86 64 -boot c -drive V 
file-/images/xpbase.qcow2,if-virtio -m 384 -netdev \ 
type-tap, script-/etc/KVM/QEMU-ifup,id-net0 -device V 
virtio-net-pci,netdev-netO0 

















2) 使 用 Libvirt 管 理 的 KVM 虚 拟 机 ， 可 以 修改 xm 配置 文件 ， 配 置 文件 如 下 : 











<interface type-'bridge'» 

«mac address-'fa:16:3e:fc:e0:c0'/» 

«source bridge-'br0'/» 

«model type-'Virtio'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 






































«model type='VirtioV> 指 定 了 使 用 Virtio 网 卡 。 如 果 要 使 用 全 虚拟 化 网 卡 ， 使 用 <model type='e1000'/>。 如 果 没 有 指定 model type 关 键 字 ， 默 认 是 8139 的 全 虚拟 化 网 卡 。e1000 模 拟 的 是 Intel 公 司 
的 千 兆 网 卡 ，8139 模 拟 的 是 早期 的 Realtek 公 司 的 百 兆 网 卡 。 














由 于 实际 中 多 数 使 用 Libvirt 管 理 虚 拟 机 ， 因 此 第 二 种 方法 用 得 更 多 。 











4.1.2 ”全 虚拟 化 网 卡 、 半 虚拟 化 网 卡 性 能 比较 











全 虚拟 化 网 卡 的 性 能 与 Virtio 半 虚拟 化 网 卡 的 性 能 差距 非常 明显 。 通 常用 两 个 方面 的 数据 来 衡量 网 卡 性 能 : 




















-Aot (PPZ) bit/s。 





























通常 情况 下 ， 更 多 地 使 用 前 者 来 衡量 网 卡 性 能 ， 但 是 实际 使 用 中 经 常 发 现 ， 如 果 服 务 器 承载 的 是 游戏 或 者 Web 服 务 等 需要 大 量 收发 小 包 的 业务 ， 即 使 带宽 没有 被 撑 满 也 会 出 现 性 能 瓶颈 ， 这 时 就 是 受到 
了 “每 秒 发 包 数 ”这 个 指标 的 限制 。 因 此 下 面 将 从 带宽 和 每 秒 发 包 数 两 方面 对 比 全 虚拟 化 网 卡 和 半 虚 拟 化 网 卡 的 性 能 。 测 试 使 用 的 是 Intel X540 的 万 兆 网 卡 。 


























1. 测 试 环境 介绍 


























测试 环境 使 用 两 台 服务 器 ， 一 台 宿 主机 ， 一 台 物 理 机 ， 宿 主机 上 运行 虚拟 机 ， 用 物理 机 给 虚拟 机 打压 力 。 











宿主 机 和 物理 机 配置 一 模 一 样 ， 配 置信 息 如 下 。 

: CPU: CPU 1 Intel (R) Xeon (R) CPU E5-26200(22.00GHz 235 . 
<- MÆ: DIMM000 DIMMO00, Hynix, 8192 MB, 1332 MHz 6 根 。 
“网卡: Intel Corporation Ethernet Controller 10-Gigabit X540-AT2。 


2. 测 试 环境 拓扑 








测试 环境 如 图 4-3 所 示 ， 宿 主机 编号 为 A， 物 理 机 编号 为 B， 全 部 虚拟 机 使 用 桥接 模式 。 








IP:172.16.200.182 


eth4 


eth4 IP:172.16.100.221 
IP:172.16.100.222 







eth5 eth5 


图 4-3 网卡 性 能 测试 环境 拓扑 图 

















(1) 宿主 机 A 配置 及 虚拟 机 信息 





宿主 机 A 网 卡 eth4 配 置 IP: 172.16.100.222; 网 卡 eth5 和 网 桥 br5 对 应 ， 配 置 IP: 172.16.200.222。 


在 宿主 机 A 上 创建 3 台 虚 拟 机 的 配置 如 下 。 














1) CentOS6.2, 

- IP: 172.16.200.180. 
“内存 : AGB. 

“ 网 卡 驱动 : Virtio。 

“ 网 卡 连 接 方 式 : 桥接 。 
2) Windows 2003, 

- IP: 172.16.200.181. 
"内存: AGBs 

“ 网 卡 驱动 : Viros 

“ 网 卡 连 接 方 式 : 桥接 。 
3) Windows 2008, 

- IP: 172.16.200.182。 

- HË: AGB. 

:网卡 驱动 : Viro. 
:网卡 连接 方式 : 桥接 。 
(2) 服务 器 B 配 置 


网 卡 eth4 配 置 IP: 172.16.100.221; 网 卡 eth5 配 置 IP: 172.16.200.221。 

















3. 测 试用 例 一 : 物理 网 卡 之 间 发 包 率 及 吞吐 测试 
9... 


以 下 测试 内 容 和 结果 来 自 笔者 实际 的 测试 报告 ， 内 容 比 较 详细 ， 主 要 目的 是 希望 能 够 介绍 一 下 进行 网 络 性 能 测试 的 时 候 应 该 关注 的 测试 指标 及 测试 内 容 、 
虚拟 机 网 卡 性 能 的 差异 。 





笔者 的 数据 展现 方式 ， 以 及 各 种 驱动 、 系 统 下 


(1) 服务 器 B 网 卡 eth4 到 服务 器 A 网 卡 eth4 发 包 率 测试 




















测试 内 容 如 下 (上 县 体 的 测试 工具 使 用 FIO， 使 用 方法 见 本 书 第 15 章 ) : 














- 64B. 128B. 256B. 512B. 1024B.] &, REMIR 


“ 测试 队列 总 数 50 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 














发 包 率 测试 结果 如 图 4-4 所 示 。 
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图 4-4 物理 网 卡 发 包 率 测试 


数据 结果 图 表 如 表 4-1 所 示 。 





表 4-1 物理 网 卡 发 包 率 测试 结果 


(2) 服务 器 B 网 卡 eth4 到 服务 器 A 网 卡 eth4 吞 吐 测试 





测试 内 容 如 下 : 
: 16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发 包 率 测试 。 
“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-5 所 示 。 
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数据 结果 图 表 如 表 4-2 所 示 。 


测试 内 容 
16KB 
64KB 
128KB 
256KB 
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表 4-2 ”物理 网 卡 知 吐 测 试 结果 


| | 


4 测试 用 例 二 : 物理 网 卡 到 CentOS 6.2 虚 拟 机 之 间 发 包 率 及 吞吐 测试 





(1) 服务 器 B 网 卡 eth5 到 CentOS 6.2 虚 拟 机 网 卡 发 包 率 测试 


测试 内 容 如 下 : 


: 64B、128B、256B、512B、1024B 小 包 ， 发 包 率 测试 。 


“ 测试 队列 总 数 50 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


测试 结果 如 图 4-6 所 示 。 





测试 结果 图 表 如 表 4-3 所 示 。 


测试 内 容 
64Byte 
128Byte 
256Byte 


表 4-3 ”物理 网 卡 到 CentOS 6.2 庶 拟 机 之 间 发 包 率 测试 结果 


Max package 测试 内 容 
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最 大 吞吐 
9417.94 
9419.34 
9429.38 


Max package 
88 319 
88 049 
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服务 器 B-> 虚 机 CentOS 6.2 每 秒 发 包 率 





图 4-6 ”物理 网 卡 到 CentOS 6.2 虚 拟 机 之 间 发 包 率 测试 结果 
(2) 服务 器 B 网 卡 eth4 到 虚拟 机 CentOS 6.2 网 卡 吞吐 测试 
测试 内 容 如 下 : 
.16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发 包 率 测试 。 
“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-7 所 示 。 
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物理 机 B->CentOS 6.2 吞 吐 测试 





图 4-7 ”物理 网 卡 到 CentOS 6.2 虚 拟 机 之 间 知 吐 测 试 


测试 结果 图 表 如 表 4-4 所 示 。 


表 4-4 物理 网 卡 到 CentOS 6.2 庶 拟 机 之 间 吞 吐 测试 结果 


测试 内 容 最 大 吞吐 测试 内 容 最 大 吞吐 


128KB 7656.1 5MB 7458.82 


5 .测试 用 例 三 : 物理 网 卡 到 Windows 2003 虚 拟 机 之 间 发 包 率 及 吞吐 测试 
(1) 虚拟 机 网 卡 驱动 : Virtio 
1) 服务 器 B 网 卡 eth5 到 虚拟 机 Windows 2003 网 卡 发 包 率 测试 。 
测试 内 容 如 下 : 
“64B、128B、256B、512B、1024B 小 包 ， 发 包 率 测试 。 
* 测试 队列 总 数 50 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


测试 结果 如 图 4-8 所 示 。 
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每 秒 发 包 率 (1024Byte) 
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物理 机 B->Windows 2003 每 秒 发 包 率 (Virtio) 








4-8. Windows 2003 Virtio 网 卡 发 包 率 测 试 











测试 结果 图 表 如 表 4-5 所 示 。 





表 4-5 Windows 2003 Virtio 网 卡 发 包 率 测试 结果 


测试 内 容 Max package 测试 内 容 Max package 
64Byte 50 432 512Byte 51 273 
128Byte 1024Byte 48 056 


256Byte 





2) 服务 器 B 网 卡 eth4 到 虚拟 机 Windows 2003 网 卡 吞 吐 测试 。 
测试 内 容 如 下 : 
“16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发 包 率 测试 。 


“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-9 所 示 。 
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图 4-9 Windows 2003 Virtio 网 卡 吞 吐 测试 





测试 结果 图 表 如 表 4-6 所 示 。 
表 4-6 Windows 2003 Virtio 网 卡 吞吐 测试 结果 


(2) 虚拟 机 网 卡 驱动 : e1000 

1) 服务 器 B 网 卡 eth5 到 虚拟 机 Windows 2003 网 卡 发 包 率 测试 。 
测试 内 容 如 下 : 

- 64B、128B、256B、512B、1024B 小 包 ， 发 包 率 测试 。 

“ 测试 队列 总 数 30 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


测试 结果 如 图 4-10 所 示 。 
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图 4-10 Windows 2003 e1000 网 卡 发 包 率 测试 





测试 结果 数据 图 表 如 表 4-7 所 示 。 





表 4-7 Windows 2003 e1000 网 卡 发 包 率 测试 


测试 内 容 Max package 测试 内 容 Max package 
64Byte 22 148 512Byte 20 063 


128Byte 21 477 


256Byte 





2) 服务 器 B 网 卡 eth4 到 虚拟 机 Windows 2003 吞 吐 测试 。 

测试 内 容 如 下 : 

.16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发 包 率 测试 。 
“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-11 所 示 。 








测试 结果 图 表 如 表 4-8 所 示 。 


表 4-8 Windows 2003 e1000 网 卡 吞吐 测试 结果 


128KB 5MB 1770.69 


seeme 休 大 /小 (16KB ) 
emm {Jkh (64KB) 
emm]; (128KB) 
= [i] k/h (256KB) 
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图 4-11 Windows 2003 e1000 网 卡 吞吐 测试 
6 .测试 用 例 四 : 物理 网 卡 到 Windows 2008 虚 拟 机 之 间 发 包 率 及 吞吐 测试 
(1) 虚拟 机 网 卡 驱 动 : virtio 
1) 服务 器 B 网 卡 eth5 到 虚拟 机 Windows 2008 网 卡 发 包 率 测试 。 
测试 内 容 如 下 : 
- 64B、128B、256B、512B、1024B 小 包 ， 发 包 率 测试 。 
“ 测试 队列 总 数 50 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


测试 结果 如 图 4-12 所 示 。 





o 每 秒 发 包 率 〈64Byte ) 

。 每 秒 发 包 率 (128Byte) 
。 每 秒 发 包 率 (256Byte) 
。 每 秒 发 包 率 (512Byte) 
。 每 秒 发 包 率 (1024Byte) 


发 包 率 (Packages/s) 
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图 4-12 ”eth5 到 虚拟 机 Windows 2008 网 卡 发 包 率 测试 


测试 结果 图 表 如 表 4-9 所 示 。 





表 4-9 eth5 到 虚拟 机 Windows 2008 网 卡 发 包 率 测试 结果 


2) 服务 器 B 网 卡 eth4 到 虚拟 机 Windows 2008 网 卡 吞吐 测试 。 





测试 内 容 如 下 : 
“16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发 包 率 测试 。 
“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-13 所 示 。 
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物理 机 B->Windows 2008 Virtio 吞 吐 测试 











4-13 eth4 到 虚拟 机 Windows 2008 网 卡 吞吐 测试 








测试 结果 图 表 如 表 4-10 所 示 。 


表 4-10 eth4 到 虚拟 机 Windows 2008 网 卡 吞 吐 测 试 结果 


MAR WX 
sn ST 


(2) 虚拟 机 网 卡 驱动 : e1000 

1) 服务 器 B 网 卡 eth5 到 虚拟 机 Windows 2008 网 卡 发 包 率 测试 。 
测试 内 容 如 下 : 

"64B、128B、256B、512B、1024B 的 小 包 ， 发 包 率 测试 。 

* 测试 队列 总 数 30 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


测试 结果 如 图 4-14 所 示 。 
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5000 


测试 结果 图 表 如 表 4-11 所 示 。 





测试 内 容 
64Byte 
128Byte 
256Byte 


测试 内 容 如 下 : 
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图 4-14 Windows 2008 e1000 网 卡 发 包 率 测试 


表 4-11 Windows 2008 e1000 网 卡 发 包 率 测试 结果 


Max package 测试 内 容 
26 468 512Byte 


26 179 1024Byte 
26 029 p 


2) 服务 器 B 网 卡 eth4 到 虚拟 机 Windows 2008 网 卡 吞 吐 测试 。 





"16KB、64KB、128KB、256KB、512KB、1MB、5MB 包 ， 发包 率 测试 。 


“ 测试 队列 总 数 20 个 ， 取 稳定 状态 下 的 最 大 值 为 测试 结果 。 


吞吐 测试 结果 如 图 4-15 所 示 。 





测试 结果 图 表 如 表 4-12 所 示 。 


测试 内 容 
16KB 
64KB 

128KB 
256KB 


表 4-12 Windows 2008 e1000 网 卡 吞 吐 测试 结果 


测试 内 容 
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Max package 
26 010 
24911 


最 大 吞吐 
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Ej4-15 Windows 2008 e1000 网 卡 吞 吐 测试 
7. 测 试 总 结 


(1) 发 包 率 性 能 测试 数据 及 结论 ( 见 图 4-16 和 表 4-13) 
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图 4-16 发 包 率 性 能 测试 数据 
表 4-13 义 540 发 包 率 性 能 测试 数据 对 比 


meum an 
(64Byte) | (128Byte) | (256Byte) | (512Byte) | ( 1024Byte) 

物理 机 B-> 物理 机 A 162 802 

物理 机 B->CentOS 6.2 88 049 





( 续 ) 


—— 包 大 小 包 大 小 包 大 小 包 大 小 包 大 小 
测试 类 型 
( 64Byte ) ( 128Byte) | (256Byte) | (512Byte) | ( 1024Byte) 
物理 机 B—» Windows 2003 ( Virtio) 537 48 056 
物理 机 B— Windows 2008 ( Virtio) 1 365 51 781 51345 
物理 机 B->Windows 2008 (e1000 ) 6 468 26 179 26 029 26 010 24911 


Intel X540 在 虚拟 机 以 桥 的 方式 连接 网 络 的 情况 下 性 能 表现 如 下 : 





* CentOS 6.2 的 发 包 率 性 能 可 以 达到 物理 网 络 的 50% 左 右 。 
“ 康 拟 机 使 用 Virtio 了 驱动 ， 对 于 发 包 率 性 能 有 明显 提高 ， 基 本 是 使 用 e1000 了 驱动 性 能 的 2 倍 。 
- 整体 可 以 看 到 ， 在 KVM 虚 拟 化 下 ， 对 于 CentOS 系 统 要 比 Windows 的 好 3 们 。 


(2) 吞吐 性 能 测试 数据 及 结论 ( 见 图 4-17 和 表 4-14) 
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图 4-17 吞吐 性 能 测试 数据 
表 4-14 吞吐 性 能 测试 数据 对 比 


— 包 大 小 | 包 大 小 | 包 大 小 | 包 大 小 | axr | 包 大 小 | EAN 

NRE 

; (16KB) | (64KB) |(128KB)|(256KB)|(512KB)| (1MB) | (5MB) 

物理 机 B-> 物理 机 A 9417 9419.34 | 9429.38 
HHL B->Windows 2003 (e1000)| 2898.93 | 325928 | 2698.52 | 2966.67 | 2715.63 | 21093 | 1770.69 

物理 机 ind ( ) 3 

7] HEEJL B—» Windows e 3. 3:2 d à : 5.23 Ts 

物理 机 B_>Windows 2008 (el000)| 763.97 | 78322 | 80611 | 812.66 | 81662 | 78523 | 798.58 


Intel X540 在 虚拟 机 使 用 桥 方式 连接 的 时 候 ， 吞 吐 性 能 表现 如 下 : 
“ 物理 网 络 的 性 能 非常 出 色 ， 几 乎 达 万 兆 。 
© CentOS 6.2 的 性 能 可 能 达到 物理 网 卡 80% 左 右 的 吞吐 性 。 


* Windows 2003 使 用 e1000 时 ， 知 吐 要 比 使 用 Virtio 性 能 高 10%。 





* Windows 2008 使 用 Virtio 驱 动 时 ， 吞 吐 要 比 使 用 e1000 驱 动 的 性 能 高 两 倍 左右 。 


:由 上 面 两 条 可 以 看 出 ，Windows 系 统 吞吐 性 能 和 驱动 是 有 很 大 关系 的 ， 不 同 驱动 表现 的 性 能 差异 十 分 明显 。 


4.1.3 ”全 虚拟 化 网 卡 、 半 虚拟 化 网 卡 的 应 用 场景 


在 实际 生产 环境 中 ， 根 据 系统 不 同 ， 甚 至 系统 的 版 本 不 同 ， 网 卡 的 选择 方式 也 不 一 样 。 


1.Windows 虚 拟 机 网 卡 使 用 














2014 年 10 月 之 前 ， 笔 者 在 生产 环境 中 ，Windows 虚 拟 机 一 直 使 用 e1000 的 全 虚拟 化 网 卡 ， 因 为 Windows 虚 拟 机 使 用 Virtio 网 卡 ， 一 直 有 网 络 闪 断 的 情况 发 生 。Windows 虚 拟 机 Virtio 驱 动 也 在 不 断 地 改 
进 ， 到 2014 年 10 月 ， 笔 者 测试 最 新 版 的 Virtio 的 Windows 驱 动 ， 已 经 工作 得 比较 稳定 了 ， 所 以 笔者 随后 又 在 生产 环境 使 用 Virtio。 如 果 Windows 虚 拟 机 的 压力 很 高 ， 本 书 4.5 节 介绍 的 网 卡 独占 技术 也 是 非常 














不 错 的 性 能 解决 方案 ， 稳 定性 也 非常 好 。 


2.Linux 虚 拟 机 网 卡 使 用 





























Viritio 网 卡 在 Linux 系 统 上 表现 一 直 很 稳定 ， 目 前 Linux 内 核 默 认 集成 Virtio 驱 动 ， 大 部 分 Linux 发 行 版 可 以 直接 使 用 Virtio 网 卡 。 比 如 从 RHEL 5.4 开 始 就 正式 支持 Virtio，RHEL 5.4 之 后 的 RHEL 系 统 都 建 





























议 使 用 Virtio 网 卡 。 对 于 一 些 比 较 老 的 但 是 还 在 用 的 Linux 系 统 ， 比 如 RHEL 4.x， 为 了 保证 兼容 性 ， 建 议 使 























42 MacVTap 和 vhost-net 技 术 原理 与 应 用 








图 4-18 所 示 是 MacVTap 与 vhost_net 技 术 原 理 比 较 。 
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e1000 的 虚拟 网 卡 。 
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图 4-18 MacVTap 与 vhost_net 技 术 原 理 比较 



































虚拟 化 网 卡 。 


如 图 4-18 所 示 ，vhost_net 技 术 使 虚拟 机 的 网 络 通信 绕 过 用 户 空间 的 虚拟 化 层 ， 可 以 直接 和 内 核 通信 ， 从 而 提供 虚拟 机 的 网 络 性 能 ，MacVTap 则 是 跳 过 内 核 的 网 桥 。 使 用 vhost_net， 必 须 使 用 Virtio 半 






































MacVlan 的 功能 是 给 同一 个 物理 网 卡 配置 多 个 MAC 地 址 ， 这 样 就 可 以 在 软件 上 配置 多 个 以 太 网 口 ， 属 于 物理 层 的 功能 。MacVTap 是 用 来 替代 TUN/TAP 和 Bridge 内 核 模块 的 。MacVTap 是 基 



































MacVlan 这 个 模块 ， 提 供 TUN/TAP 中 TAP 设 备 使 用 的 接口 ， 使 






































MacVTap 以 太 网 口 的 虚拟 机 能 够 通过 TAP 设 备 接口 ， 直 接 将 数据 传递 到 内 核 中 对 应 的 MacVTap 以 太 网 口 。 














vhost_net 是 对 于 Virtio 的 优化 。Virtio 本 来 是 设计 用 于 进行 客户 系统 的 前 端 与 VM M 的 后 端 通信 ， 减 少 硬件 虚拟 化 方式 下 根 模式 和 非 根 模式 的 切换 。vhost-net 是 对 于 Virtio 的 优化 ，Virtio 是 虚拟 化 层 的 
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42.1 MacVTap 技 术 与 应 用 






































前 端 优化 方案 ， 减 少 硬件 虚拟 化 方式 下 根 模式 与 非 根 模式 的 切换 ， 而 vhost-net 是 虚拟 化 层 后 端 优化 方案 。 不 使 用 vhost-net， 进 入 CPU 的 根 模式 后 ， 需 要 进入 用 户 态 将 数据 发 送 到 tap 设 备 后 ， 再 次 切入 内 
态 ， 使 用 vhost-net 方 式 后 ， 进 入 内 核 态 后 不 需要 在 进行 内 核 态 用 户 态 的 切换 ， 进 一 步 减少 特权 级 切换 的 开销 。 


MacVTap 同 传统 的 桥接 方案 相 比 ， 其 优点 主要 是 支持 新 的 虚拟 化 网 络 技术 ， 可 以 将 宿主 机 CPU 的 一 些 工 作 交 给 网 络 设备 。 


1. 传 统 桥接 方案 









































传统 的 Linux 网 络 虚拟 化 技术 采用 的 是 TAP+Bridge 方 式 ， 将 虚拟 机 连接 到 虚拟 的 TAP 网 卡 ， 然 后 将 TAP 网 卡 加 入 到 Bridge。Bridge 相 当 于 用 软件 实现 的 交换 机 。 这 种 解决 方案 实际 上 就 是 用 服务 器 的 





CPU 通过 软件 模拟 网 络 。 





下 面 是 在 4.1 节 出 现 过 的 虚拟 机 网 卡 配置 文件 。 





«interface type-'bridge'» 

«mac address-'00:16:3e:d6:6£:37'/» 

<source bridge-'br0'/» 

«targetdev-'tap0'/» 

«model type-'Virtio'/» 

Xalias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 






































其 中 <target dev='tap0'/> 的 tap0 就 是 一 个 TAP 设 备 ， 只 不 过 其 中 的 一 些 参 数 已 经 换 成 了 具体 的 设置 。 


可 以 通过 ifconfig 查 看 tap0 的 情况 。 





root@localhost:~# ifconfig tap0 

tap0 Link encap:EthernetHWaddr 52:13:ab:00:85:83 

inet6 addr: fe80::5013:abff:fe00:8583/64 Scope:Link 

UP BROADCAST RUNNING PROMISC MULTICAST MTU:1500 Metric:1l 
RX packets:11 errors:0 dropped:0 overruns:0 frame:0 

TX packets:27 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:1000 

RX bytes:846 (846.0 B) TX bytes:2050 (2.0 KB) 





tap0 被 加 入 到 了 br0 中 ， 可 以 理解 为 tap0 是 交换 机 br0 上 的 一 个 端口 ， 虚 拟 机 的 网 卡 则 连接 到 了 这 个 端口 。 




















[root(localhost ~]# brctl show br0 
bridge name bridge id STP enabled interfaces 
bro 8000 . 000c2962b4f0 no tap0 





以 上 就 是 传统 的 TAP+ Bridge 虚 拟 化 网 络 技术 ， 这 种 技术 有 3 个 缺点 : 


“ 每 台 宿 主机 内 都 存在 Bridge， 会 使 网 络 拓扑 变 复杂 ， 相 当 于 增加 了 交换 机 的 级 联 层 数 。 
“ 同一 宿主 机 上 的 虚拟 机 之 间 的 流量 直接 在 Bridge 完 成 交换 ， 使 流量 监控 、 监 管 困难 。 
“ bridge 是 软件 实现 的 二 层 交 换 技 术 ， 会 加 大 服务 器 的 负担 。 


2.MacVTap 方 案 


























针对 云 计算 中 的 复杂 网 络 问题 ， 业 界 主要 提出 了 两 种 扩展 技术 标准 : 802.1Qbg 与 802.1Qbh。802.1Qbh (Bridge Port Extension) 主要 由 VMware 与 Cisco 提 出 ， 尝 试 从 接 入 层 到 汇聚 层 提供 一 个 完整 
的 虚拟 化 网 络 解决 方案 ， 尽 可 能 达到 软件 定义 一 个 可 控 网 络 的 目的 。 它 扩展 了 传统 的 网 络 协议 ， 因 此 需要 新 的 网 络 设备 支持 ， 成 本 较 高 。802.1Qbg (Edge Virtual Bridging, EVB) 主要 由 HP 等 公司 联合 
提出 ， 尝 斌 以 较 低 成 本 利用 现 有 设备 改进 软件 模拟 的 网 络 ， 















































802.1Qbg 的 一 个 核心 概念 是 VEPA (Virtual Ethernet Port Aggregator) ， 简 单 来 说 它 通 过 端口 汇聚 和 数据 分 类 转发 ， 把 宿主 机 上 原来 由 CPU 和 软件 来 做 的 网 络 处 理工 作 转移 到 接 入 层 交 换 机 上 ， 减 
少 宿主 机 CPU 和 负载， 同时 使 得 在 一 级 的 交换 机 上 做 虚拟 机 网 络 流量 监控 成 为 可 能 ， 从 而 更 清晰 地 分 割 服务 器 与 网 络 设备 的 工作 范围 ， 方 便 系 统 的 管理 。 
































为 支持 新 的 虚拟 化 网 络 技术 ，Linux 引 入 了 新 的 网 络 设备 模型 : MacVTap。MacVTap 的 实现 基于 传统 的 MacVlan。 和 TAP 设 备 一 样 ， 每 一 台 MacVTap 设 备 拥有 一 台 对 应 的 Linux 字 符 设 备 ， 并 拥有 和 
TAP 设 备 一 样 的 OCTL 接 口 ， 因 此 能 直接 被 KYM/QEMU 使 用 ,方便 地 完成 网 络 数据 交换 工作 。 引 入 MacVTap 设 备 的 目标 是 : 简化 虚拟 化 环境 中 的 交换 网 络 ， 代 蔡 传 统 的 Linux TAP 设 备 加 Bridge 设 备 组 
合 ， 同 时 支持 新 的 虚拟 化 网 络 技术 ， 如 802.1 Qbg. 
































MacVTap 设 备 有 3 种 不 同 的 工作 模式 : VEPA (Virtual Ethernet Port Aggregator) 、Bridge、Private。 


(1) VEPA 














在 这 种 模式 下 ， 同 一 物理 网 卡 下 的 MacVTap 设 备 之 间 的 流量 也 要 发 送 到 外 部 交换 机 ， 再 由 外 部 交换 机 转发 回 到 服务 器 ， 前 提 是 交换 机 必须 支持 hairpin 模 式 。 





(2) Bridge 























这 种 模式 类 似 于 传统 的 Linux Bridge， 同 一 物理 网 卡 下 的 MacVTap 设 备 可 以 直接 进行 以 太 网 帧 的 交换 ， 不 需要 外 部 交换 机 的 介入 。 


(3) Private 





在 Private 模 式 下 ， 同 一 物理 网 卡 下 的 MacVTap 设 备 互相 无 法 连通 ， 无 论 外 部 交换 机 支 不 支持 hairpin 模 式 。 





以 下 是 创建 一 个 MacVTap 端 口 的 过 程 。 











[root@localhost ~]# ip link add link ethl name MacVTap0 type MacVTap 
[rootülocalhost ~]# ip link set MacVTap0 address 1a:46:0b:ca:bc:7b up 
[root(localhost ~]# ip link show MacVTapO 

12: MacVTapOGethl: «BROADCAST,MULTICAST,UP»mtu 1500 qdiscnoqueue state UNKNOWN 
link/ether 1a:46:0b:ca:bc:7b brdff:ff:ff:ff:ff:ff 




















KVM 虚 拟 机 使 用 MacVTap 接 入 网 络 的 方法 也 很 简单 ， 在 Libvirt 中 使 用 MacVTap 的 配置 文件 如 下 : 


«interface type-'direct'» 

«mac address-'1a:46:0b:ca:bc:7b' /» 

Xsource dev-'ethl' mode-'bridge'/» 

«model type-'e1000'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
































虚拟 机 创建 后 ， 宿 主机 系统 会 自动 创建 出 一 台 MacVTap 设 备 给 虚拟 机 使 用 ， 这 台 MacVTap 设 备 附属 于 母 设备 eth1， 工 作 模 式 为 Bridge。 
OQ. 
目前 MacVTap 在 Windows 虚 拟 机 中 性 能 表现 不 理想 ， 因 而 Windows 虚 拟 机 不 建议 使 用 。 


4.2.2 ”vhost_net 技 术 


1. 什 么 是 vhost_net 























运行 一 台 虚 拟 机 是 由 用 户 空间 的 QEMU 和 内 核 的 KVM 共同 完成 的 ，QEMU 负 责 模 拟 各 种 设备 提供 给 虚拟 机 ，KVM 负 责 完成 CPU 和 内 存 的 虚拟 化 。Virtio 的 后 端 处 理 程序 一 般 是 由 用 户 空间 的 QEMU 提 供 
的 。 为 了 进一步 减少 延迟 、 提 高 性 能 ， 比 较 新 的 内 核 中 增加 了 一 个 vhost_net 的 驱动 模块 ， 在 内 核 中 实现 了 Virtio 的 后 端 处 理 程序 。 














2.vhost_net 配 置 


Libvirt 配 置 文件 的 默认 配置 就 是 使 用 vhost_net， 当 然 也 可 以 显 式 配置 。 


«interface type-'bridge'» 
«mac address-''/» 
«source bridge-'br0'/» 
«model type-'Virtio'/» 
«driver name-"vhost"/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 


4.3 网 卡 的 中 断 与 多 队列 



































在 介绍 网 卡 中 断 与 多 队列 之 前 ， 需 要 先 了 解 一 下 中 断 。X86 体 系 结构 的 计算 机 采用 中 断 机 制 来 协同 处 理 器 与 其 他 设备 的 工作 。 当 一 台 设 备 需要 与 处 理 器 通信 时 ， 就 会 向 处 理 器 发 出 一 个 中 断 信和 号。 例如 
敲 击 键盘 时 ， 键 盘 就 会 产生 一 个 中 断 ， 通 知 操作 系统 有 键 被 按 下 。 在 响应 一 个 中 断 时 ，Linux 内 核 会 调用 一 个 叫 作 中 断 处 理 程序 的 函数 来 处 理 这 个 中 断 。 由 于 中 断 会 频繁 发 生 ， 因 此 要 求 中 断 处 理 程序 执行 要 
快速 。 为 了 实现 快速 执行 ， 必 须要 将 一 些 繁 重 且 不 非常 紧急 的 任务 从 中 断 处 理 程序 中 剥离 出 来 ， 这 一 部 分 在 Linux 中 称 为 “下 半 部 ”， 有 3 种 方法 处 理 下 半 部 一 一 软 中 断 、tasklet 和 工作 队列 。 










































































以 网 卡 为 例 ， 当 网 卡 收 到 数据 包 时 会 产生 中 断 ， 通 知 内 核 有 新 数据 包 ， 然 后 内 核 调 用 中 断 处 理 程序 进行 响应 ， 把 数据 包 从 网 卡 缓存 复制 到 内 存 。 因 为 网 卡 缓存 大 小 有 限 ， 如 果 不 及 时 复制 出 数据 ， 后 续 
数据 包 将 会 因为 缓存 溢出 被 丢弃 ， 因 此 这 一 工作 需要 立即 完成 。 剩 下 的 处 理 和 操作 数据 包 的 工作 就 会 交 给 软 中 断 。 





























Ñ, 


的 冲突 及 Cache 热 度 问题 。 











高 负载 的 网 卡 是 软 中 断 产生 的 大 户 ， 很 容易 形成 瓶颈 。 并 且 在 相当 长 的 时 期 内 ， 网 卡 的 中 断 都 是 通过 CPU 0 来 处 理 的 ， 造 成 CPU 0 的 压力 很 高 、 其 他 CPU 相对 空闲 的 情况 。 后 来 出 现 了 网 卡 多 队列 技 





网 卡 多 队列 实际 就 是 网 卡 的 数据 请 求 可 以 通过 多 个 CPU 处 理 。 


1. 物 理 网 卡 的 中 断 与 多 队列 











RSS 是 网 卡 的 硬件 特性 ， 实 现 多 队列 ， 将 不 同 的 流 分 发 到 不 同 的 CPU 上 ， 同 一 数据 流 始终 在 同一 CPU 上 ， 避 免 TCP 的 顺序 性 和 CPU 的 并 行 性 发 生 冲 突 。 基 于 流 的 负载 均衡 ， 解 决 了 顺序 协议 和 CPU 并 行 





如 果 服务 器 的 网 卡 支持 RSS， 会 在 系统 中 看 到 网 卡 对 应 多 个 发 送 和 接收 队列 。 


[rootülocalhost ~]# ls /sys/class/net/eth0/queues/ 





rx-0 rx-1 rx-2 rx-3 rx-4 rx-5 rx-6 rx-7 tx-0 tx-1 tx-2 tx-3 tx-4 


tx-5 tx-6 tx-7 





多 队列 网 卡 的 好 处 是 可 以 将 每 个 队列 产生 的 中 断 分 布 到 CPU 的 多 个 核 ， 实 现 负载 均衡 ， 避 免 单个 核 被 占用 


2. 绑 定 中 断 








CentOS 系 统 中 依靠 iirqbalance 服 务 优化 中 断 分 配 ，irqbalance 服 务 F 











save mode, 





于 优化 中 断 分 配 ， 它 会 
































其 他 核 还 处 了 


[£i 
zi 
zl 














动 收集 系统 数据 以 分 析 使 用 模式 











- &b fF Performance mode 时 ，irqbalance 会 将 中 断 尽 可 能 均匀 地 分 发 给 各 个 CPU core， 以 充分 利用 CPU 多 核 ， 提 升 性 能 。 


- 处 于 Power-save mode 时 ，irqbalance 会 将 中 断 集中 分 配给 第 一 个 CPU， 以 保证 其 他 空闲 CPU 的 睡眠 时 间 ， 降 低能 耗 。 





空闲 的 情况 。 多 队列 网 卡 的 每 个 队 刺 











的 中 断 都 是 使 有 





， 并 依据 系统 负载 状况 将 工作 状态 置 了 


irqbalance 服 务 在 大 压力 情况 下 ， 尤 其 是 万 兆 网 卡 上 ， 有 中 断 漂移 及 分 配 不 平均 的 现象 。 如 果 压 力 比较 大 ， 可 以 手工 调整 系统 的 网 卡 中 断 。 








单独 的 中 断 线 。 


FPerformance mode 或 Power- 








github 上 有 一 个 非常 经 典 的 网 卡 绑 定 中 断 的 脚本 ， 脚 本 的 主要 功能 是 关闭 irqbalance 服 务 。 如 果 不 关闭 irqbalance 服 务 ， 由 脚本 设置 的 中 断 CPU 亲 和 性 的 值 会 不 断 被 irqbalance 改 写 ， 使 脚本 的 作用 失 





3. 中 断 优 化 脚本 效果 测试 

















运行 脚本 之 前 ， 用 Netperf 向 服务 器 打压 力 (Netperf 的 使 用 在 第 15 章 有 详细 介绍 ) 。 使 有 












































在 看 下 面 的 数据 之 前 ， 先 介绍 一 下 mpstat 命 令 的 输出 。mpstat 命 令 使 














“ 9%usr: 表示 处 理 用 户 进程 所 使 用 CPU 的 百分比 。 


。 然 后 脚本 找到 每 个 网 卡 的 每 个 队列 对 应 的 中 断 线 ， 分 别 设 定 CPU 亲 和 性 。 脚 本 链接 是 https://gist.github.com/syuu1228/4352382， 读 者 可 以 直接 下 载 使 用 。 


nice: 表示 使 用 nice 命 令 影响 的 用 户 进程 所 使 用 CPU 的 百分比 ，nice 值 可 以 影响 进程 的 优先 级 。 


sys: 表示 内 核 进 程 使 用 的 CPU 百分比 。 
: Voowait: 表示 等 待 IO 使 用 的 CPU 百分比 。 
“ %irq: 表示 处 理 中 断 使 用 的 CPU 百分比 。 
* soft: 表示 处 理 软 中 断 使 用 的 CPU 百分比 。 
guest: 表示 虚拟 机 消耗 的 CPU 百 分 比 。 


: %idle: 表示 CPU 空闲 的 百分比 。 














图 4-19 所 示 是 mpstat-p ALL 观 察 服务 器 未 运行 脚本 绑 定 中 断 时 的 24 个 CPU 的 运行 情况 。 



































mpstat-p ALL 观 察 服务 器 的 CPU 情况 。 














-p 参 数 选 择 要 看 CPU 的 哪个 核心 ，ALL 表 示 显 示 所 有 CPU 核心 的 数据 。 下 面 是 mpstat 命 令 的 全 部 输出 项 。 








:30 AM CPU Wusr Wnice "sys "owait %irq "soft "steal "guest — idle 
:23 AM all 0. 09 0. 00 4. 33 0. 00 0. 00 0. 56 0. 00 3. 82 

:23 AM 0. 00 .00 13. . 00 0. 00 0.00  T2.T3 

:23 AM 1 1. 02 00 00 z 0. 00 4. 08 

:23 AM 00 00 00 i 0. 00 9.18 

:23 AM 
:23 AM 
:23 AM 
:23 AM 
:23 AM 
:23 AM 
:23 AM 
:23 AM 
:23 AN 
:23 AM 
:23 AM 
:23 AM 
:23 AM 
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:23 AM 
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:23 AM 
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.00 100.00 
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0.00 0.00 0.00 0.00 0.00 100.00 
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图 4-19 ”未 运行 脚本 绑 定 中 断 时 的 24 个 CPU 的 运行 情况 








%soft 一 列 的 数据 显示 ， 在 不 绑 定 中 断 的 情况 下 ， 软 中 断 集中 在 一 个 CPU 核 上 ， 很 容易 形成 性 能 瓶颈 。 


图 4-20 所 示 是 运行 脚本 后 24 个 CPU 的 测试 结果 。 





:30 AM CPU “nice sys %*iowait irq “soft "steal guest %idle 

: all : 0. 00 4. 59 0. 00 0. 89 0. 00 3.66 | 90.82 
. 00 0.00 78.57 
00 42.42 44.44 
00 18.68 52.75 
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4-00 运行 脚本 后 24 个 CPU 的 测试 结果 














可 以 看 出 ， 软 中 断 被 均衡 到 了 多 个 CPU 核 上 ， 这 样 就 可 以 充分 利用 多 个 CPU 核心 带 来 的 性 能 提升 。 











4 网卡 软 中 断 分 发 的 软件 解决 方法 








RSS 需 要 网 卡 硬件 的 支持 ， 在 使 用 不 支持 RsS 的 网 卡 时 ， 为 了 充分 利用 多 核 CPU，CentOS 6.1 开 始 提供 了 RPS (Receive Packet Steering) 和 RFS (Receive Flow Steering) 。 





























RPS 使 网 卡 可 以 把 一 个 rx 队 列 的 软 中 断 分 发 到 多 个 CPU 核 上 ， 从 而 达到 负载 均衡 的 目的 。RFS 是 RPS 的 扩展 ，RPS 只 依靠 hash 来 控制 数据 包 ， 提 供 了 好 的 负载 平衡 ， 但 是 它 没有 考虑 应 用 程序 的 位 置 (这 
个 位 置 是 指 程序 在 哪个 CPU 上 执行 ) 。RFS 则 考虑 到 了 应 用 程序 的 位 置 。RFS 的 目标 是 通过 指派 应 用 线程 正在 运行 的 CPU 来 进行 数据 包 处 理 ， 以 此 来 增加 数据 缓存 的 命中 率 。 























开启 RPS/RFS 的 脚本 (脚本 来 自 网 上 ， 出 处 不 可 考证 ) 如 下 : 





1! /bin/bash 
# Enable RPS (Receive Packet Steering) 
rfc-4096 
cc=$ (grep -c processor /proc/cpuinfo) 
rsfe=$ (echo $cc*$rfc | bc) 
sysctl -w net.core.rps sock flow entries-$rsfe 
for fileRps in $(1s /sys/class/net/eth*/queues/rx-*/rps cpus) 
do 

echo ffff > $fileRps 
done 
for fileRfc in $(1s /sys/class/net/eth*/queues/rx-*/rps flow cnt) 
do 

echo $rfc » $fileRfc 
done 

tail /sys/class/net/eth*/queues/rx-*/(rps cpus,rps flow cnt) 








其 中 ， 所 有 队列 的 rps_ flow_cnt 之 和 不 能 大 于 rps_sock flow_entries。rps_cpus 的 值 采 用 的 是 CPU 位 图 ， 转 换 成 二 进 制 后 ， 每 一 位 代表 一 个 CPU 核心 ，1 表 示 软 中 断 可 以 调度 到 这 个 核心 ，0 表 示 不 可 
以 。ffff 转 换 成 二 进 制 是 1111111111111111， 表 示 软 中 断 可 以 调度 到 16 个 核心 。 如 果 你 的 服务 器 CPU 核心 数 跟 笔者 不 同 ， 可 以 修改 该 值 ， 例 如 8 个 CPU 核心 的 服务 器 ， 这 个 值 可 以 设 为 ff。 









































对 虚拟 化 来 说 ，RPS/RFS 的 应 用 场景 主要 是 虚拟 机 系统 内 ， 借 助 RPS/RFS 软 件 方式 可 以 实现 虚拟 机 的 软件 中 断 分 发 。 图 4-21 和 图 4-22 所 示 的 测试 结果 是 从 一 台 物 理 机 向 虚拟 机 用 netperf 打 压力 时 的 数 























开启 前 : 


10:58:00 AM CPU YWusr nice Wsys  %iowait irq “soft "steal Weuest — Widle 
10:58:01 AM all 2.54 0.00 . 38.58 0. 00 0. 00 8. 63 0. 00 0.00 | 50.25 


10:58:01 AM 0 0. 00 0. 00 1. 02 0. 00 0. 00 0. 00 0. 00 0.00 4 98.98 
10:58:01 AM 1 5. 10 0.00 76.53 0. 00 0. 00 17.35 0.00 0. 00 1.02 














4-21. 未 开启 虚拟 机 RPSVRFS 中 断 情 况 





CPU Wusr Wnice sys 入 Iowait  %irq Wsoft "steal "guest X dle 


all 4. 55 0.00 . 66.48 0. 00 0.57 10.23 0. 00 0.00 18.18 
0 5. 88 0.00 68.63 0. 00 0.00 7.84 0. 00 0.00 17.65 
4. 00 0.00 62.67 0. 00 1.33 13.33 0. 00 0.00 18.67 

















4-22 ”开启 虚拟 机 RPS/RFS 中 断 情况 





从 图 4-21 和 图 4-22 中 可 以 看 出 ， 开 启 前 中 断 波动 比较 大 ， 开 启 之 后 中 断 比 较 平衡 ， 软 中 断 被 分 配 到 了 两 个 CPU 核 ， 从 而 使 CPU 的 中 断 负载 更 加 均衡 。 














5. 多 队列 Virtio 网 卡 


RedHat 的 两 位 工程 师 已 经 实现 了 多 队列 Virtio 网 卡 驱动 程序 。 其 使 用 方法 如 下 。 





1) 判断 内 核 是 否 支 持 多 队列 。 如 果 命 令 输出 为 空 ， 则 表示 不 支持 多 队列 。 





[rootélocalhost ~]# grep IFF MULTI QUEUE /usr/include/Linux/if tun.h 





2) 多 队列 Virtio 网 卡 配置 。 





«interface type='bridge'> 

«mac address='52:54:00:43:6e:3f'/> 

<source bridge-'clients'/» 

«model type-'Virtio'/» 

Xdriver name-'vhost' queues-'N'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x04' function-'0x0'/» 
«/interface» 





N 1-8 最 多 支持 8 个 队列 ， 在 虚拟 机 上 执行 以 下 命令 开启 多 队列 网 卡 : 





#ethtool -L eth0 combined M 





M 1-N，M 小 于 等 于 N。 





3) 目前 多 队列 Virtio 网 卡 在 小 包 转发 上 性 能 还 不 理想 ， 有 待 优化 ， 因 此 还 不 建议 在 生产 环境 使 用 。 随 着 CentOS 7 的 版 本 迭代 ， 相 信 Virtio 网 卡 的 性 能 会 得 到 改善 。 





44 网 卡 PCI Passthrough 技 术 











如 果 虚 拟 机 对 网 络 的 要 求 非常 高 ， 通 过 PCI Passthrough 技 术 将 物理 网 卡 直 接 给 虚拟 机 使 用 ， 如 图 4-23 所 示 ， 虚 拟 机 单独 使 用 网 卡 ， 可 以 达到 几乎 和 物理 网 卡 一 样 的 性 能 。 
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PCI Passthrough 














4-23 网卡 PCI Passthrough 技 术 示意 














1. 网 卡 PCI Passthrough 配 置 


PCI Passthrough 配 置 方法 如 下 。 











1) 查看 网 卡 设备 信息 。 使 用 lspci 命 令 查看 网 卡 设备 信息 。 








04:00.0 Ethernet controller: Intel Corporation 82571EB Gigabit Ethernet 
Controller (rev 06) 
04:00.1 Ethernet controller: Intel Corporation 82571EB Gigabit Ethernet 
Controller (rev 06) 








也 可 以 使 用 virsh nodedev-list-tree 命 令 得 到 相关 信息 。 











- pci 0000 00 07 0 


pci 0000 04 00 0 


IC: 
| 
lj 
| +- net plpl 00 lb 21 88 69 dc 
| 
pn 


pci 0000 04 00 1 








2) 使 用 virsh nodedev-dumxml pci 0000 04 00 0 命令 得 到 .xm 配置 信息 。 

















[root@]# virsh nodedev-dumpxml pci 0000 04 00 0 
«device» 和 
<name>pci 0000 04 00 0</name> 
<parent>pci 0000 00 07 0</parent> 
«driver» ^ ^ ^ 
«name»e1000e«/name» 
«/driver» 
«capability type-'pci'» 
«domain»0«/domain» 
«bus»4«/bus» 
«slot»0«/slot» 
«tunction»0«/function» 
«product ide'0x105e'»82571EB Gigabit Ethernet Controller«/product» 
«vendor id-'0x8086'»Intel Corporationc/vendor» 
X/capability» 
«/device» 


3) 编辑 虚拟 机 xml 文 件 ， 加 入 PCI 设 备 信息 。 








<hostdev mode-'subsystem' type-'pci' managed-'yes'» 
«source» 
«address domain-'0x0000' bus-'0x04' slot-'0x00' function-'0x0'/» 
</source> 
</hostdev> 








Domain bus slot function 信 息 从 nodedev-dumxml 处 的 .xml 文 件 获取 ， 然 后 使 用 virsh define 命 令 定义 虚拟 机 ， 再 开启 虚拟 机 就 可 以 了 。 


9... 
因为 附加 上 去 的 是 物理 设备 ， 所 以 需要 在 虚拟 机 操作 系统 里 面 安装 相应 的 物理 网 卡 驱动 。 


2. 网 卡 PCI Passthrough 的 应 用 场景 














PCI Passthrough 技 术 是 虚拟 化 网 卡 的 终极 解决 方案 ， 能 够 让 虚拟 机 独占 物理 网 卡 ， 达 到 最 优 的 性 能 ， 可 以 在 网 卡 性 能 要 求 非常 高 的 场景 使 用 。 但 是 因为 PCI| Passthrough 是 独占 网 卡 ， 所 以 对 宿主 机 
的 网 卡 数 量 有 要 求 。 目 前 主流 的 服务 器 都 有 4 块 以 上 的 网 卡 ， 实 际 使 用 的 时 候 ， 可 以 将 1~2 块 网 卡通 过 PCI Passthrough 技 术 分 给 网 络 压 力 非常 大 的 虚拟 机 ， 然 后 其 他 虚拟 机 共享 剩余 的 网 卡 。 
































45 SR-IVO 虚 拟 化 技术 








SR-IOV 是 比较 好 的 虚拟 化 硬件 性 能 解决 方案 ， 使 用 需要 特定 的 硬件 支持 ， 缺 点 是 目前 还 不 支持 虚拟 机 在 线 迁移 。 在 单机 虚拟 化 的 场景 ， 可 以 考虑 使 用 SR-IOV 来 解决 性 能 及 虚拟 机 之 间 资 源 平衡 分 配 的 
问题 。 
1.SR-IOV 的 技术 的 原理 及 优点 


(1) SR-IOV 的 原理 




















SR-IVO 是 the Single Root MO Virtualization 的 简写 ， 是 一 个 将 PCI-E 设 备 共享 给 虚拟 机 使 用 的 标准 ， 多 用 在 网 络 设备 上 。 理 论 上 也 可 以 支持 其 他 的 PCI 设 备 ， 目 前 也 有 一 些 显卡 使 用 SR-IOV 方 案 , d 
于 桌面 虚拟 化 ， 但 是 大 多 还 是 实验 原型 ， 相 信 很 快 就 能 看 到 显卡 的 SR-1OV 商 业 化 产品 。 






































VFs (Virtual Functions) 实例 。SR-IOV 上 有 两 个 功能 类 型 。 





如 图 4-24 所 示 ，SR-IOV 是 一 种 硬件 解决 方案 ,提供 了 一 种 从 硬件 上 绕 过 系统 和 虚拟 化 层 ， 并 且 使 每 个 虚拟 机 能 有 单独 的 内 存 地 址 、 中 断 、DMA 流 。SR-IOV 在 架构 上 简单 讲 就 是 一 块 物理 网 卡 ， 开 多 个 








: Physical Functions (PFs) : 拥有 全 功能 PCI-E 功 能 ， 用 于 配置 管理 SR-IOV。 


* Virtual Functions (VFs) : 只 有 轻 量 级 的 PCI-EE 功 能 ， 只 包含 数据 传输 必要 的 资源 ， 但 是 资源 可 以 非常 细致 地 配置 ， 每 个 PF 最 多 可 有 64000 个 与 其 关联 的 虚拟 功能 (Virtual Function, VF) 。 


虚拟 机 虚拟 机 





图 4-24 SR-IOV 原 理 
(2) SR-IOV 的 优点 
SR-IOV 标 准 允许 高 效 共享 PCI-E 设 备 ， 有 以 下 优点 : 
良好 的 性 能 ， 虚 拟 机 绕 过 虚拟 化 层 和 系统 ， 直 接 访 问 硬件 ， 没 有 虚拟 化 层 软 件 模拟 的 开销 。 
: 降低 成 本 ， 减 少 了 设备 数量 ， 例 如 网 卡 的 SR-IOV 减 少 了 网 卡 数量 、 交 换 机 端口 、 网 线 。 


2. 网 卡 SR-IOV 的 配置 





SR-IOV 的 配置 需要 先 配置 宿主 机 PF， 然 后 将 子 网 卡通 过 网 卡 独占 的 方式 供 虚 拟 机 使 用 。 





(1) 加 载 SR-IOV 内 核 模块 


通过 modprobe 命 令 加 载 igb 模 块 。 


VFn 





modprobe igb 





实际 加 载 的 时 候 ， 需 要 激活 虚拟 功能 (VF) . 





modprobe igb max vfs-7 





干 兆 网 卡 最 多 支持 8 个 VF (0-7) 。 干 兆 网 卡 目前 支持 比较 好 的 是 Intel 1350, Intel 82576 虽 然 也 支持 SR-IOV， 但 是 只 支持 虚拟 机 是 Linux 系 统 ，Windows 系 统 不 支持 。 


万 兆 网 卡 最 多 支持 64 个 VF (0~63) ，Intel 的 新 一 代 万 兆 网 卡 X520 (82599) 、X540 都 支持 SR-IOV 技 术 。 


如 果 是 主板 集成 的 网 卡 ， 一 般 在 BIOS 中 SR-IOV 功 能 是 关闭 的 。 如 果 要 使 用 ， 需 要 在 BIOS 中 打开 SR-IOV 选 项 。 





如 果 需 要 重新 设置 VF， 可 以 删除 模块 再 重新 加 载 。 





modprobe -r igb 





将 配置 永久 写 入 配置 文件 。 





echo "options igb max vfs=7" >>/etc/modprobe.d/igb.conf 





通过 lspci 命 令 可 以 看 多 主 网 卡 和 子 网 卡 。 





# lspci | grep 82576 

05:00.0 Ethernet controller: Intel Corporation 82576 Gigabit Network Connection (rev 01) 

05:00.1 Ethernet controller: Intel Corporation 82576 Gigabit Network 

Connection (rev 01) 

05:10.0 Ethernet controller: Intel Corporation 82576 Virtual Function (rev 01) 

05:10.1 Ethernet controller: Intel Corporation 82576 Virtual Function (rev 01) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
0b:10.7 Ethernet controller: Intel Corporation 82576 Virtual Function (rev 01) 

0b:11.0 Ethernet controller: Intel Corporation 82576 Virtual Function (rev 01) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





(2) 子 网 卡 的 使 用 


虚拟 机 可 以 通过 网 卡 独占 的 方式 使 用 子 网 卡 。 





# virsh nodedev-list | grep Ob 
pci 0000 0b 00 0 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


pci 0000 0b 10 6 
pci 0000 0b 11 7 
pci 0000 0b 11 1 


http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 








虚拟 机 网 卡 xm 配置 文件 如 下 : 
«interface type-'hostdev' managed-'yes'» 
«source» 
Xaddress type-'pci' domain-'0' bus-'ll' slot-'16' function-'0'/» 
</source> 
</interface> 














虚拟 机 需要 安装 网 卡 驱动 才能 使 用 子 网 卡 ， 高 版 本 的 Linux 系 统 可 以 自动 识别 子 网 卡 ，Windows 系 统 只 能 是 2008 Server 以 上 版 本 ， 并 且 要 安装 最 新 的 Intel 网 卡 驱动 。 














4.6 ”虚拟 化 软件 交换 机 Open vSwitch 的 安装 与 配置 


Open vSwitch 是 一 个 由 软件 实现 的 虚拟 交换 机 ， 由 Nicira Networks 主 导 开发 。 它 的 目的 是 通过 编程 扩 | 





























展 让 大 型 网 络 的 管理 变 得 自动 化 ， 同 时 仍然 支持 标准 的 管理 接口 和 协议 (例如 NetFlow、 





sFlow, SPAN, RSPAN, CLI, LACP, 802.1ag) 。 此 外 ，Open vSwitch 还 可 以 跨 物理 服务 器 ， 实 现 类 似 于 VMware 的 vNetwork 分 布 式 vSwitch 或 Cisco Nexus 1000 V 的 功能 。 



































KVM 虚 拟 机 可 以 通过 Open vSwitch 接 入 网 络 。 相 比 传统 的 桥接 方式 ，Open vSwitch 具 有 更 高 的 灵活 性 ， 例 如 可 以 在 线 更 改 虚 拟 机 的 VLAN 等 。 在 使 用 Open vSwitch 管 理 虚 拟 机 网 络 之 前 ， 先 介绍 一 


下 Open vSwitch 的 一 些 基 本 概念 。 
' Bridge: Bridge 代 表 一 个 以 太 网 交换 机 (Switch) ， 一 个 主机 中 可 以 创建 一 个 或 者 多 个 Bridge 设 备 。 


Por: 端口 相当 于 物理 交换 机 的 端口 ， 每 个 Port 都 隶属 于 一 个 Bridge。 


- Interface: 连接 到 Port 的 网 络 接口 设备 。 在 通常 情况 下 ，Port 和 Interface 是 一 对 一 的 关系 ， 只 有 在 配置 Port 为 bond 模 式 后 ，Port 和 Interface 才 是 一 对 多 的 关系 。 


: Controller: OpenFlow 控 制 器 。OVS 可 以 同时 接受 一 个 或 者 多 个 OpenFlow 控 制 器 的 管理 。 


- datapath: 在 OVS 中 ，datapath 负 责 执 行 数据 交换 ， 也 就 是 把 从 接收 端口 收 到 的 数据 包 在 流 表 中 进行 匹配 ， 并 执行 匹配 到 的 动作 。 


“ Flow table: 每 个 datapath 都 和 一 个 Flow table 关 联 ， 当 datapath 接 收 到 数据 之 后 ，OVS 会 在 Flow table 中 查找 可 以 匹配 的 Flow， 执 行 对 应 的 操作 ， 例 如 转发 数据 到 另外 的 端口 。 











Open vSwitch 的 理解 和 使 用 非常 复杂 ， 不 仅 需 要 系统 知识 ， 还 需要 网 络 方面 的 知识 ， 受 篇 幅 限制 | 











4.6.1 Open vSwitch 安 装 








本 书 将 着 重 讲解 Open vSwitch 的 安装 及 几 个 典型 环境 的 配置 方法 。 





一 般 情 况 推荐 使 用 包 管理 工具 yum 或 apt 安 装 Open vSwitch， 这 样 做 方便 而 且 易 于 维护 。 如 果 想 要 尝试 比较 新 的 Open vSwitch 版 本 ， 可 以 使 用 源 代码 安装 的 方式 。 

















1. 通 过 源 代码 的 方式 安装 Open vSwitch 


1) 安装 gcc 等 相关 软件 包 。 





[root@localhost ~]# yum install gcc kernel-devel 





2) 安装 OVS。 





[root@localhost ~]# wget http://KVM.org/releases/KVM-2.3.0.tar.gz 
[root@localhost ~]# tar xvf KVM-2.3.0.tar.gz 
[root@localhost ~]# cd KVM-2.3.0 

[root@localhost KVM-2.3.0]# ./configure --with-Linux-/lib/modules/'uname -r'^/build 
[root(localhost KVM-2.3.0]4 make&&make install 

# 如 果 这 一 步 报错 : 

/root/KVM-2.3.0/datapath/Linux/compat/include/Linux/skbuff.h:298: error: 

'structsk buff' has no member named '14 rxhash' 

IRR MR .3.0/datapath/Linux/compat/include/linux/skbuff.híj$2984Ti£ 443 
# 加 载 模块 

[root@localhost KVM-2.3.0]# modprobeKVM 





3) 配置 。 





[root@localhost ~]#mkdir -p /usr/local/etc/KVM 

el sb EUER CIE 

[root(localhost ~]# ovsdb-tool create /usr/local/etc/KVM/conf.db 

# 启 动 数据 库 

[root@localhost ~]# ovsdb-server V 
--remote-punix:/usr/local/var/run/KVM/db.sock --pidfile --detach 

din 3616 AiE 

[root(localhost ~]# ovs-vsctl --no-wait init 

#8 slovs-vswitchdstf£ 

[rootelocalhost ~]# ovs-vswitchd --pidfile --detach 

# 检 查 两 个 进程 是 否 正常 

[root@localhost ~]# psaux|grepovs 

root 10898 0.0 0.1 11952 1268 Ss 14:03 0:00 ovsdb-server --remote=punix:/usr/ 
local/var/run/KVM/db.sock --pidfile --detach 

root 10930 0.0 0.1 12368 1372 Ss 14:06 0:00 ovs-vswitchd --pidfile --detach 
root 10970 0.0 0.0 103252 876 pts/0 S+ 14:21 0:00 grepovs 





2. 通 过 yum 的 方式 安装 Open vSwitch 






































通过 源码 安装 OVS 过 程 复杂 ， 容 易 遇 到 问题 ， 而 且 不 易 管 理 ， 因 此 不 推荐 使 用 。 实 际 使 用 中 最 好 











1) 添加 repo 源 。 由 于 工作 的 关系 ， 笔 者 一 般 用 的 是 Fedora 的 openstack-grizzly 的 源 。 








yum 或 apt 等 包 管理 工具 


进行 安装 。 下 面 介 绍 如 何 使 











yum 安 装 Open vSwitch, 





[root(localhost ~]# vim /etc/yum.repos.d/rdo-release.repo 

[openstack-grizzly] 

name-OpenStack Grizzly Repository 
baseurl-http://repos.fedorapeople.org/repos/openstack/EOL/openstack-grizzly/epel-6/ 


enabled-1 

Skip if unavailable-1l 

gpgcheck-0 
gpgkey-file:///etc/pki/rpm-gpg/RPM-GPG-KEY-RDO-Grizzly 
priority-98 


2) 安装 。 





[root@localhost ~]# yum install KVM 





3) 启动 服务 并 设置 为 开机 自 启 动 。 





[root(localhost ~]# chkconfig KVM on 
[rootélocalhost ~]# /etc/init.d/KVM start 

















OVS 有 一 套 强大 的 命令 行 管理 工具 ， 命 令 数量 比较 多 且 难 记 ， 因 此 不 准备 专门 花 篇 幅 介 绍 命令 ， 在 接 下 来 的 几 节 中 将 直接 在 配置 案例 中 演示 。 


























4.6.2 Open vSwitch 典 型 配置 


1.KVM 虚 拟 机 通过 Open vSwitch 接 入 网 络 



































宿主 机 环境 操作 系统 为 CentOS 6.4， 双 网 卡 eth0、eth1， 其 中 eth0 作 为 宿主 机 的 管理 口 ，eth1 外 连 交换 机 的 trunk 端 口 ， 预 留 给 虚拟 机 流量 使 























1) 创建 网 桥 。 





[root@localhost ~]# ovs-vsctl add-br br0 





2) 把 eth1 加 入 br0。 





[root@localhost ~]# ovs-vsctl add-port br0 ethl 





3) 编辑 虚拟 机 配置 文件 。 需 要 注意 ，Libvirt 从 0.9.11 版 本 开始 才 支持 以 下 的 配置 。 





«interface type-'bridge'» 

«mac address-'fa:16:3e:fc:e0:c0'/» 

«source bridge-'br0'/» 

«virtualport type-'KWM'/» 

«vlan» 

«tag id-'2'/» 

«/vlan» 

«targetdev-'tapl'/» 

«model type-'Virtio'/» 
«/interface» 





启动 虚拟 机 后 可 以 看 到 OVS 的 配置 情况 。 





[root@localhost ~]# ovs-vsctl show 
ca36676e-cb43-448b-aefe-23ff0b96bac5 
Bridge "br0" 

Port "ethl" 

Interface "ethl" 

Port "br0" 

Interface "br0" 

type: internal 

Port "tapl" 

tag: 2 

Interface "tapl" 

type: internal 











在 Open vSwitch 中 ，port 默 认 属于 trunk 模 式 ， 除 非 指定 其 VLAN tag。 前 面 提 到 eth1 外 连 到 了 交换 机 的 trunk 端 | 此 这 里 没有 给 eth1 设 置 tag。 根 据 VLAN 的 知识 ， 除 了 native VLAN (一 般 为 
VLAN 1) 之 外 ， 所 有 二 层 帧 必须 包含 正确 的 VLAN tag 才 能 正常 通过 trunk 链 路 ， 所 以 虚拟 机 对 应 的 tap1 端 口 也 必须 有 VLAN tag。 笔 者 给 虚拟 机 的 网 段 属 于 VLAN 2， 所 以 这 里 tag 设 置 为 2。 



























































既然 eth1 是 trunk 模 式 ， 这 台 宿 主机 上 就 可 以 同时 运行 属于 不 同 VLAN 的 虚拟 机 了 ， 只 需要 给 虚拟 机 对 应 的 tap 网 卡 设置 VLAN tag 即 可 。 如 果 用 传统 的 Linux bridge 要 实现 类 似 的 功能 ， 配 置 相当 复杂 
而 且 无 法 进行 在 线 更 改 ， 而 在 OVS 中 使 用 命令 ovs-vsct| set port tap1 tag=3 即 可 改变 虚拟 机 的 VLAN， 这 是 OVS 所 强调 的 灵活 性 的 一 个 体现 。 








2.Open vSwitch bond 配 置 


Linux bond 应 用 已 经 非常 广泛 ， 它 在 提高 网 络 可 靠 性 的 同时 还 能 提高 性 能 。OVS 同 样 提供 了 对 bond 的 支持 ， 下 面 是 配置 过 程 。 





# 创 建 一 个 网 桥 

[root@localhost ~]# ovs-vsctl add-br br0 

# 将 网 卡 eth2、eth3 配 置 成 一 个 bond0， 并 加 入 到 br0 中 ，1lacp 状 态 设 为 active 
[root@localhost ~]# ovs-vsctl add-bond br0 bond0 eth2 eth3 lacp-active 
# 将 bond modeit Z;balance-slb 

[root@localhost ~]# ovs-vsctl set port bond0 bond mode-balance-slb 

# 查 看 bond0 的 具体 信息 E 

[root(localhost ~]# ovs-appctl bond/show bond0 











Open vSwitch bond 常 用 的 有 以 下 几 种 模式 。 














* active-backup: 将 所 有 流量 分 配给 同一 块 物理 网 卡 ， 当 这 块 物理 网 卡 失 效 时 ， 将 流量 切换 至 其 他 网 卡 。 
* balance-slb: 将 流量 根据 源 mac 地 址 和 输出 vlan ID 在 物理 网 卡 之 间 进 行 负载 均衡 。 


* balance-tcp: 与 balance-slb 类 似 ， 除 了 根据 L2 的 信息 外 ， 这 种 模式 还 可 以 根据 L3、L4 的 信息 进行 负载 均衡 ， 如 IP 地 址 、TCP 端 口 等 。 但 是 需要 注意 的 是 ， 这 种 模式 的 正常 工作 需要 上 游 交 换 机 支持 
802.3ad 且 lacp 协 商 成 功 ， 如 果 不 满足 条 件 ，KVM 将 会 把 bond mode 回 退 到 balance-slb。 














lacp 的 值 有 3 种 : active、passive 和 off。 在 本 节 刚 开始 的 配置 案例 中 ， 上 游 交 换 机 不 需要 任何 额外 配置 ，lacp 的 状态 是 任何 一 种 都 可 以 ; 但 是 ， 如 果 交 换 机 上 对 应 端口 配置 了 port channel, Open 
vSwitch bond 的 lacp 就 必须 设置 为 active 网 络 才 能 正常 。 这 一 点 需要 特别 注意 ， 刚 开始 学 习 Open vSwitch bond 的 配置 很 容易 犯错 。 











3. 连 接 两 个 Open vSwitch 网 桥 








将 两 个 网 桥 连 接 起 来 ， 就 相当 于 现实 中 用 网 线 将 两 台 真实 交换 机 连接 起 来 。 














(1) 利用 VETH 设 备 


























VETH (Virtual Ethernet) 设备 出 现 较 早 ， 它 的 作用 是 反 转 通信 数据 的 方向 ， 需 要 发 送 的 数据 会 被 转换 成 需要 收 到 的 数据 重新 送 入 内 核 网 络 层 进行 处 理 ， 从 而 间接 地 完成 数据 的 注入 。VETH 设 备 总 是 成 
对 出 现 ， 送 到 一 端 请 求 发 送 的 数据 总 是 从 另 一 端 以 请 求 接收 的 形式 出 现 。 该 设备 不 能 被 用 户 程序 直接 操作 ， 但 使 用 起 来 比较 简单 。 创建 并 配置 正确 后 ， 向 其 一 端 输入 数据 ，VETH 会 改变 数据 的 方向 并 将 其 送 
入 内 核 网 络 核心 ， 完 成 数据 的 注入 。 在 另 一 端 能 读 到 此 数据 。 


















































下 面 是 配置 过 程 。 





# 创 建 两 个 网 桥 

[root@localhost ~]# ovs-vsctl add-br br0 

[root@localhost ~]# ovs-vsctl add-br bri 

# 创 建 一 对 veth 设 备 

[root(localhost ~]# ip link add name veth0 type veth peer name vethl 
# 分 别 将 两 个 veth 设 备 加 入 到 br0 和 br1 

[root(localhost ~]# ovs-vsctl add-port br0 veth0 

[root(localhost ~]# ovs-vsctl add-port brl vethl 





这 样 ， 两 个 网 桥 就 连接 起 来 了 。 




















(2) 利用 Open vSwitch 的 patch 类 型 的 端 

















patch 类 型 的 端口 是 也 是 成 对 存在 的 ， 其 作用 相当 于 现实 中 的 patch cable。 





下 面 是 配置 过 程 。 


# 创 建 两 个 网 桥 

[root@localhost ~]# ovs-vsctl add-br br0 

[root@localhost ~]# ovs-vsctl add-br brl 

# 创 建 一 对 patch 端 口 ， 并 分 别 加 入 两 个 网 桥 

[root@localhost ~]# ovs-vsctl add-port br0 patch-to-br0 
[root@localhost ~]# ovs-vsctl set interface patch-to-br0 type-patch 
[root(localhost ~]# ovs-vsctl set interface V 
patch-to-brOoptions:peer-patch-to-brl 

[root(localhost ~]# ovs-vsctl add-port brl patch-to-brl 
[root(localhost ~]# ovs-vsctl set interface patch-to-brl type-patch 
[root(localhost ~]# ovs-vsctl set interface V 
patch-to-brloptions:peer-patch-to-brO 
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在 生产 环境 中 ， 通 过 多 网 卡 绑 定 ， 可 以 提高 可 靠 性 和 带宽 。 在 CentOS 7 系统 中 ， 宿 主机 配置 多 网 卡 绑 定 和 建 桥 的 方法 如 下 。 
(1) 配置 modprobe 文 件 


内 容 如 下 : 


cat /etc/modprobe.d/nicbond.conf 
alias bond0 bonding 
options bond0 mode-1 miimon-100 





多 网 卡 绑 定 可 以 有 0~6 共 7 模式 。 

“ mode=0: 多 端口 轮 询 发 送 数据 包 。 

< mode=1: 主 备 模式 。 

< mode=2: 基于 Hash 算 法 发 送 数据 包 。 

| mode=3: 每 个 接口 上 传输 每 个 数据 包 ， 此 模式 提供 了 容错 能 力 。 

: mode-4: 基于 (802.3ad) IEEE 802.3ad Dynamic link aggregation (IEEE 802.3ad 动 态 链接 聚合 ) ， 需 要 和 交换 机 配合 。 
“ mode-5: 每 块 网 卡 根据 当前 的 负载 (根据 速度 计算 ) 分 配 外 出 流量 。 

: modez6: 针对 IPv4 做 了 优化 。 


(2) 挂 载 bonding 模 块 





modprobe bonding 





(3) 配置 多 网 卡 绑 定 接口 





服务 器 有 4 个 网 口 。 








enp3s0f0: flags-4163«UP,BROADCAST, RUNNING,MULTICAST» mtu 1500 

ether 1c:cl:de:1e:al:f2 txqueuelen 1000 (Ethernet) 

RX packets 6716921 bytes 745694715 (711.1 MiB) 

RX errors 0 dropped 0 overruns 0 frame 0 

TX packets 689079 bytes 174181455 (166.1 MiB) 

TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
enp3s0f1: flags-4099«UP,BROADCAST,MULTICAST» mtu 1500 

ether 1c:cl:de:le:al:f4 txqueuelen 1000 (Ethernet) 

RX packets 0 bytes 0 (0.0 B) 

RX errors 0 dropped 0 overruns 0 frame 0 

TX packets 0 bytes 0 (0.0 B) 

TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
enp4s0f0: flags-4099«UP,BROADCAST,MULTICAST» mtu 1500 

ether 1c:cl:de:le:al:f6 txqueuelen 1000 (Ethernet) 

RX packets 0 bytes 0 (0.0 B) 

RX errors 0 dropped 0 overruns 0 frame 0 

TX packets 0 bytes 0 (0.0 B) 

TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 
enp4s0f1: flags-4099«UP,BROADCAST,MULTICAST» mtu 1500 


ether 1c:cl:de:1e:al:f8 txqueuelen 1000 (Ethernet) 

RX packets 0 bytes 0 (0.0 B) 

RX errors 0 dropped 0 overruns 0 frame 0 

TX packets 0 bytes 0 (0.0 B) 

TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 











目标 是 绑 定 enp4s0f0 和 enp4sOf1 两 个 网 口 ， 配 置 方法 如 下 。 








1) 先 配置 聚合 接口 。 





cd /etc/sysconfig/network-scripts 
cat ifcfg-bondO 

DEVICE-bondO 

ONBOOT-YES 

BRIDGE-brl 





2) 配置 enp4s0f0。 





cat ifcfg-enp4sOf0 
HWADDR-1C:Cl:DE:1E:A1:F6 

TYPE-Ethernet 

BOOTPROTO-none 

NAME-enp4sOf0 
UUID-2ae88bqd4-54d49-42e8-5b247-702738c954ac 
ONBOOT-yes 

MASTER-bondO 

SLAVE-yes 





3) 配置 enp4s0f1。 





cat ifcfg-enp4s0f1 
HWADDR-1C:Cl:DE:1E:A1:F8 
TYPE-Ethernet 
BOOTPROTO-none 
DEFROUTE-yes 

PEERDNS-yes 
PEERROUTES-yes 
NAME-enp4sOf1 
UUID-dla335d6-dec4-4ba2-aaea-0b7c14b653c6 
ONBOOT-yes 

MASTER-bondO 

SLAVE-yes 





4) 配置 虚拟 网 桥 。 





cat ifcfg-brl 
DEVICE-brl 
TYPE-Bridge 
IPADDR-192.168.20.200 
NETMASK-255.255.255.0 
ONBOOT-yes 





5) 





EIAS, PASETEBOEDUUR. 


由 





systemctl restart network.service 
ifconfig 
brl: flags-4099«UP,BROADCAST,MULTICAST» mtu 1500 
inet 192.168.20.200 netmask 255.255.255.0 broadcast 192.168.20.255 
ether la:bf:fc:5a:da:91 txqueuelen 0 (Ethernet) 
RX packets 0 bytes 0 (0.0 B) 
RX errors 0 dropped 0 overruns 0 frame 0 
TX packets 0 bytes 0 (0.0 B) 
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 





6) 查看 /proc/net/bonding/bond0， 可 以 看 到 绑 定 端口 的 状态 。 








cat /proc/net/bonding/bondO 

Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011) 
Bonding Mode: load balancing (round-robin) 

MII Status: down 

MII Polling Interval (ms): O 

Up Delay (ms): 0 

Down Delay (ms): 0 
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本 章 介绍 的 网 络 虚 拟 化 技术 比较 多 ， 各 种 技术 的 应 用 场景 总 结 如 下 。 





“ KVM 网 络 优化 方案 分 为 软件 和 硬件 ， 软 件 主要 是 尽量 让 虚拟 机 靠近 网 络 网 卡 ， 直 至 独占 网 络 网 卡 ， 一 般 情 况 下 推荐 尽量 使 用 Virtio 驱 动 。 
“ 硬件 方面 ， 万 兆 网 卡 及 SR-IOV 的 方案 会 越 来 越 普及 ， 但 是 SR-IOV 的 缺点 是 不 支持 在 线 迁 移 ， 这 个 问题 有 待 解决 。 
“ 多 网 卡 绑 定 是 很 好 的 提升 带宽 和 守 余 的 方案 ， 可 以 在 强调 高 可 用 的 环境 使 用 。 


“目前 Open vSwitch 是 开源 虚拟 化 网 络 事实 上 的 标准 ， 功 能 会 越 来 越 完善 ， 使 用 也 会 越 来 越 广泛 。Open vSwitch 目 前 工作 已 经 非常 稳定 ， 建 议 在 生产 环境 中 可 以 部 署 起 来 ， 以 满足 虚拟 化 网 络 管理 的 需 


虚拟 化 的 性 能 难点 之 一 是 网 络 |/O 和 磁盘 |/O， 下 一 章 将 为 读者 介绍 磁盘 虚拟 化 技术 及 应 用 场景 。 


第 5 章 ”KVM 磁盘 虚拟 化 技术 与 应 用 场景 


本 章 将 为 读者 详细 介绍 KVM 虚 拟 化 中 的 磁盘 技术 ， 以 及 每 种 技术 的 应 用 场景 。 











KVM 虚 拟 机 磁盘 的 软件 调 优 首先 要 对 各 种 镜像 方式 有 一 定 的 了 解 ， 调 优 主要 是 不 同业 务 场景 的 磁盘 镜像 方式 及 缓存 方式 选择 。 虚 拟 机 和 物理 机 文件 系统 的 块 对 齐 对 磁盘 性 能 影响 也 很 大 ， 在 生产 环境 中 
也 要 引起 足够 重视 。 











在 虚拟 化 实践 中 ， 经 常 需要 对 虚拟 机 镜像 调整 ， 修 改 虚 拟 机 内 部 的 配置 文件 。guestfish 是 一 套 镜像 管理 的 利器 ， 不 仅 可 以 调整 镜像 的 大 小 ， 还 可 以 在 虚拟 机 不 运行 的 情况 下 ， 直 接 修改 虚拟 化 内 部 的 文 
件 ， 本 章 将 会 详细 介绍 guestfish 的 使 用 。 


硬件 方面 ，SSD 这 几 年 使 用 越 来 越 广泛 ， 本 章 将 会 详细 讨论 SSD (Solid State Drives) 在 KVM 虚拟 化 中 的 技术 及 应 用 场景 。 





5.1 ”磁盘 虚拟 化 方式 性 能 比较 与 应 用 场景 



































虚拟 化 实施 的 时 候 ， 经 常 面临 一 个 问题 ， 就 是 在 不 同 的 场景 下 如 何 选择 虚拟 化 磁盘 方式 、 每 种 磁盘 方式 的 性 能 如 何 。 本 节 将 介绍 磁盘 虚拟 化 的 方式 ， 以 及 每 种 磁盘 方式 的 性 能 对 比 及 应 用 场景 。 





5.1.1. QEMU 磁 盘 虚 拟 化 方式 概述 


QEMU 最 初 是 一 款 软件 模拟 器 ， 所 以 QEMU 的 磁盘 也 都 是 通过 软件 模拟 的 。 后 来 REMU 和 KVM 结 合 ， 性 能 有 了 很 大 提升 ， 磁 盘 方 面 也 有 了 Virtio 这 样 的 半 虚 拟 化 技术 。 





1.QEMU 可 以 模拟 的 磁盘 类 型 


KVM 虚 拟 机 在 配置 磁盘 的 时 候 ， 可 以 指定 IDE、SATA、Virtio、Virtio-SCSI 几 种 磁盘 类 型 ，CentOS 6.x 只 支持 IDE 和 Virtio 磁 盘 类 型 ，CentOS 7.x 增 加 支持 SATA 和 Virtio-SCSI 磁 盘 类 型 。 从 虚拟 的 方式 
来 看 ，IDE、SATA 是 纯 软 件 模拟 的 磁盘 ， 也 称 为 全 虚拟 化 的 磁盘 ; Virtio、Virtio-SCSI 是 半 虚 拟 化 的 磁盘 ， 通 过 改造 虚拟 机 系统 的 驱动 来 达到 提升 性 能 的 目标 。 


























Virtio 驱 动 主要 是 绕 过 QEMU 软 件 模拟 这 一 层 ， 让 虚拟 机 的 操作 系统 可 以 和 内 核 的 虚拟 化 层 直接 通信 ， 提 高 通信 效率 。 





2 每 种 磁盘 类 型 的 最 大 磁盘 数量 

















1DE 设 备 同 物理 机 一 样 ， 一 台 虚 拟 机 最 多 挂 载 4 个 IDE 设 备 。Virtio 是 模拟 PCI 设 备 给 虚拟 机 使 用 ， 因 此 一 个 Virtio 磁 盘 会 占用 虚拟 机 的 一 个 PCI 槽 位 ， 所 以 一 台 虚 拟 机 能 挂 载 的 Virtio 磁 盘 数量 受 虚 拟 机 系 
统 能 支持 的 PCI 插 槽 数量 限制 ， 一 般 最 多 是 30 个 左右 。Virtio-SCSI 使 用 Virtio 的 方式 ， 但 是 走 的 是 SCSI 通 道 ， 可 以 挂 载 更 多 的 磁盘 ， 理 论 上 一 个 SCSI 通 道 可 以 挂 载 256 块 硬盘 。 





E] 









































5.1.2. 1DE 与 Virtio 性 能 比较 测试 














1DE 虚 拟 磁盘 是 兼容 性 最 好 的 一 种 方式 ， 在 一 些 特定 的 环境 ， 必 须 使 用 低 版 本 操作 系统 的 虚拟 机 ， 只 能 选择 使 用 DE， 比 如 CentOS 4.x 系 列 、CentOS 5.3 以 前 的 版 本 ， 以 及 Windows 2000 以 前 的 版 
本 。 对 于 比较 新 的 操作 系统 ， 尽 量 使 用 Virtio 的 驱动 ， 性 能 会 好 很 多 ， 并 且 Windows 系 统 Virtio 的 驱动 尽量 使 用 比较 新 的 官方 驱动 。 













































































从 理论 上 讲 ，Virtio 会 比 IDE 磁 盘 性 能 好 很 多 ， 因 为 IDE 是 全 软件 模拟 ，Virtio 是 半 虚 拟 化 驱动 。Virtio 改 造 了 虚拟 机 ， 使 虚拟 机 可 以 直接 和 虚拟 化 层 通信 ， 极 大 地 提高 通信 效率 。 


























cadi 


.测试 环境 

' 宿主 机 和 虚拟 机 版 本 : CentOS release 6.6 (Final) 。 

“ 磁盘 : 宿主 机 ，6 块 300GB RAID 5; 虚拟 机 ，100GB IDE 硬 盘 一 块 ， 以 及 100GB Virtio 磁 盘 一 块 。 
“ 虚拟 机 磁盘 缓存 方式 为 wtitethough。 

“ 镜像 方式 为 qcow2。 


2. 测 试 结果 





IDE, Virtio 4K 随 机 读 测试 结果 如 图 5-1 所 示 。 














IDE, Virtio 4K 随 机 写 测试 结果 如 图 5-2 所 示 。 





可 以 明显 看 到 Virtiotk1DE 性 能 好 很 多 。 


坐标 轴 标 题 


3 
p 
* 
Xe 
i 





图 5-2 IDE. Viritio 4 区 随机 写 测 试 


5.2 Virtio 磁 盘 缓 存 方式 详解 、 性 能 比较 与 应 用 场景 
KVM 虚 拟 机 在 配置 磁盘 的 时 候 ， 可 以 指定 几 种 缓存 模式 。 每 一 台 虚 拟 机 的 磁盘 接口 可 以 配置 成 writethrough、writeback、none、directsync 或 者 unsafe 缓 存 模式 。 如 果 没 有 指明 缓存 模式 ，KVM 使 
用 默认 的 缓存 方式 。 


如 果 虚 拟 机 和 它 的 存储 设备 失去 连接 会 造成 数据 不 一 致 ， 缓 存 模式 的 使 用 有 可 能 会 造成 数据 丢失 。 缓 存 方式 也 会 剧烈 影响 磁盘 性 能 。 另 外 ， 在 某 些 场景 下 ， 一 些 磁盘 缓存 模式 会 和 在 线 迁 移 冲突 。 磁 盘 
镜像 、 镜 像 位 置 、 存 储 子 系统 、 缓 存 方式 没有 简单 的 最 佳 规则 ， 需 要 规划 和 测试 每 台 虚拟 机 的 各 种 情况 以 选择 最 优 的 性 能 。 


5.2.1 ”磁盘 缓存 详解 


1. 磁 盘 的 6 种 缓存 方式 介绍 





图 5-3 所 示 是 磁盘 1/O 从 虚拟 机 到 宿主 机 物理 存储 的 历程 。 


应 用 程序 虚拟 机 文件 系统 或 者 块 设备 ”虚拟 机 磁盘 驱动 虚拟 化 层 ”虚拟 机 镜像 〈 可 选 ) 














宿主 机 文件 系统 或 者 块 设备 宿主 机 磁盘 


图 5-3 ”磁盘 I/O 〇 从 虚拟 机 到 宿主 机 流向 








缓存 模式 实际 是 在 虚拟 化 层 和 宿主 机 的 文件 系统 或 者 块 设备 打开 或 关闭 缓存 的 各 种 组 合 。 





(1) 没有 指定 缓存 方式 











低 于 1.2 版 本 的 QEMU-KVM ， 如 果 没 有 指定 缓存 方式 ， 默 认 使 用 writethrough 模 式 。1.2 之 后 的 版 本 ， 大 量 的 writeback 或 者 writethrough 缓 存 模式 的 虚拟 化 存储 接口 语义 问题 被 修复 ， 人 允许 默认 的 缓 
存 模式 切换 到 writeback。1IDE、SCSI 和 Virtio 等 虚拟 机 的 磁盘 驱动 ， 虚 拟 机 内 核 有 能 力 禁止 写 缓 存 模式 ， 导 致 缓存 模式 转换 为 writethrough。 但 是 在 CentOS 系 统 上 虚拟 机 默认 的 缓存 模式 是 none。 











(2) 缓存 为 writethrough 模 式 




















这 种 模式 设置 虚拟 机 的 磁盘 镜像 文件 或 者 块 设备 为 0_ DSYNC 语 义 ， 数 据 只 有 合并 写 入 存储 设备 才 会 返回 成 功 报 告 。 宿 主机 的 页 面 缓存 在 这 种 模式 下 工作 在 透 写 方式 。 虚 拟 机 的 磁盘 驱动 告知 虚拟 机 没 
有 回 写 缓存 ， 所 以 虚拟 机 不 需要 发 出 刷 盘 命令 以 保持 数据 一 致 性 。 存 储 设备 的 行为 就 像 是 透 过 缓存 。 


(3) 缓存 为 writeback 模 式 


这 种 模式 设置 虚拟 机 的 磁盘 镜像 文件 或 者 块 设备 既 不 是 O_DSYNC 也 不 是 O_DIRECT 语 义 ， 所 以 可 以 使 用 宿主 机 页 面 缓存 ， 数 据 到 达 宿主 机 页 面 缓存 就 给 虚拟 机 返回 写成 功 报告 ， 页 面 缓存 管理 机 制 会 管 
理 数据 的 合并 写 入 宿主 机 存储 设备 。 另 外 ， 虚 拟 机 磁盘 控制 器 被 通知 可 以 使 用 回 写 缓存 ， 于 是 虚拟 机 在 需要 保证 数据 一 致 性 的 时 候 会 发 出 刷 盘 命 令 。 其 过 程 就 像 RAID 控 制 器 的 RAM 缓 存 机 制 。 






































(4) 缓存 为 none 模 式 




















这 种 模式 设置 虚拟 机 的 磁盘 镜像 文件 或 者 块 设备 为 O_DIRECT 语 义 ， 所 以 宿主 机 的 页 面 缓存 被 绕 过 ，I/O 直 接 在 QEMU-KVM 的 用 户 空间 缓存 和 宿主 机 存储 设备 间 发 生 。 由 于 实际 的 存储 设备 可 能 在 数据 
被 放 入 写 入 队列 就 报告 数据 写 操作 完成 ， 虚 拟 机 的 存储 控制 器 被 告知 有 回 写 缓存 ， 于 是 虚拟 机 在 需要 保证 数据 一 致 性 的 时 候 会 发 出 刷 盘 命令 。 相 当 于 直接 访问 主机 的 磁盘 ， 并 且 有 优越 的 性 能 。 















































(5) 缓存 为 unsafe 模 式 





这 种 模式 同上 面 讨论 的 cache=writeback 非 党 类似，unsafe 模 式 关键 的 地 方 是 所 有 的 虚拟 机 刷 盘 指令 会 被 忽略 ， 使 用 这 个 模式 意味 着 接受 宿主 机 故障 的 时 候 数据 丢失 的 风险 以 换取 性 能 。 这 个 模式 可 以 
在 系统 安装 的 时 候 使 用 ， 不 建议 在 生产 环境 中 使 用 。 





























(6) 缓存 为 directsync 模 式 











这 种 模式 设置 虚拟 机 的 磁盘 镜像 文件 或 者 块 设备 同时 使 用 O_DSYNC 和 O_DIRECT 语 义 ， 只 有 数据 被 合并 写 入 存储 设备 才 会 报告 写 操作 成 功 。 这 种 模式 也 绕 过 宿主 机 的 页 面 缓存 ， 类 似 
cache=writethrough 模 式 ， 虚 拟 机 也 不 需要 发 出 刷 盘 命令 。 这 种 模式 是 最 后 一 种 语义 缓存 和 直接 访问 的 可 能 的 组 合 ， 是 缓存 方式 的 一 种 补充 。 
































2. 缓 存 模式 的 数据 一 致 性 


下 面 按 模式 划分 来 介绍 数据 的 一 致 性 。 





(1) 缓存 为 writethrough、none、directsync 模 式 




















这 些 是 比较 安全 的 模式 ， 可 以 考虑 用 于 保持 数据 一 致 性 的 场景 ， 虚 拟 机 可 以 在 需要 的 时 候 刷 盘 。 如 果 是 一 台 可 靠 性 要 求 非常 高 的 虚拟 机 ， 请 使 用 writethough 或 者 directsync 模 式 。 注 意 在 一 些 文件 系统 
中 不 兼容 none 或 者 directsync 的 模式 ， 当 这 些 缓存 模式 被 开启 的 时 候 ， 这 些 文件 系统 不 支持 O_DIRECT 语 义 。 














(2) 缓存 为 writeback 模 式 








这 种 模式 通知 虚拟 机 工作 在 回 写 模式 ， 依 靠 虚拟 机 在 必要 的 时 候 发 起 刷 盘 命令 保持 虚拟 机 镜像 的 数据 一 致 性 。 这 和 现代 文件 系统 存储 设计 思路 保持 完全 一 致 。 但 是 必须 注意 在 数据 报告 写 完成 和 真正 地 
合并 写 到 存储 设备 上 一 个 时 间 窗 口 期 ， 这 种 模式 在 宿主 机 故障 的 时 候 会 丢失 数据 。 




















(3) 缓存 为 unsafe 模 式 


这 种 模式 同 writeback 非 常 相似 ， 只 是 希望 忽略 虚拟 机 的 刷 盘 指令 ， 通 过 刷 盘 保 持 数据 一 致 性 是 无 效 的 ， 所 以 宿主 机 故障 的 时 候 数据 丢失 的 风险 非常 高 。 被 命名 为 unsafe 也 是 警告 这 是 宿主 机 故障 的 时 
候 数 据 丢失 风险 最 高 的 一 种 模式 。 注 意 只 有 在 虚拟 机 被 关闭 的 时 候 才 有 数据 刷 盘 的 动作 。 


5.2.2 ”缓存 方式 的 性 能 比较 测试 


下 面 是 一 个 简单 的 测试 ， 验 证 一 下 各 种 缓存 方式 的 性 能 差异 。 








1. 测 试 环境 
宿主 机 和 虚拟 机 版 本 : CentOS release 6.6 (Final) 。 


磁盘 : 宿主 机 ，6 块 300GB RAID 5; 虚拟 机 ，100GB Virtio 磁 盘 一 块 ;镜像 方式 为 qcow2。 








2. 测 试 方法 


分 别 修改 虚拟 机 磁盘 缓存 方式 为 writeback、witethroug、none、unsafe 测 试 4K 随 机 读 、4K 随 机 写 性 能 。 


3. 测 试 结果 





如 图 5-4 所 示 ，4K 随 机 读 none 模 式 最 好 ， 其 他 三 种 方式 相差 不 大 。 
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如 图 5-5 所 示 ，4K 随 机 写 writeback、none、unsafe 三 种 方式 差不多 ，writethrough 性 能 最 差 。 


坐标 轴 标 题 
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图 5-5 几 种 缓存 方式 的 4 区 随机 写 比 较 





5.2.3 ”缓存 方式 的 应 用 场景 
1 .缓存 方式 对 在 线 迁移 的 影响 


存储 数据 和 元 数据 的 缓存 限制 支持 在 线 迁移 的 配置 。 当 前 ， 只 有 raw、qcow2、qed 的 镜像 格式 支持 在 线 迁 移 。 如 果 使 用 的 是 集群 文件 系统 ， 所 有 的 镜像 格式 都 支持 迁移 ; 如 果 不 是 ， 只 有 none 模 式 支 





Libvirt 会 检查 在 线 迁 移 的 几 种 兼容 性 因素 。 如 果 虚 拟 机 在 集群 文件 系统 上 ， 且 共享 存储 被 标记 为 只 读 模 式 ， 缓 存 模式 的 检查 会 被 忽略 。 相 反 ， 如 果 缓 存 模式 不 是 none，Libvirt 不 会 允许 在 线 迁 移 。 但 是 
实际 上 也 可 以 通过 virsh 命 令 使 用 unsafe 参 数 ， 或 者 使 用 API， 强 制 执行 在 线 迁移 ， 例 如 : 












































virsh migrate --live --unsafe 


QÓ.. 


none 模 式 要 求 I/O 方 式 设置 成 aio=native。 如 果 是 其 他 缓存 模式 ，I/O 方 式 会 静默 切换 为 aio=thtreads。KVM 庶 拟 机 可 以 使 用 fdatasync () 方式 实现 在 宿主 机 上 刷 盘 。 











2. 各 种 缓存 方式 的 应 用 场景 

















none 模 式 用 于 需要 虚拟 机 在 线 迁移 的 环境 ， 主 要 是 虚拟 化 集群 。writethrough 模 式 用 于 单机 虚拟 化 ， 这 种 方式 比较 保守 ， 一 般 突然 断 电 或 者 宿主 机 故障 不 会 造成 数据 丢失 。 测 试 环境 可 以 考虑 
writeback， 这 种 模式 性 能 比较 好 ， 但 是 如 果 在 脏 数据 没有 刷 盘 的 时 候 宿主 机 掉 电 ， 有 可 能 造成 虚拟 机 数据 丢失 ， 脏 数据 的 刷 盘 周期 取决 于 文件 系统 的 配置 ， 比 如 ext4 文 件 系统 ， 默 认 的 刷 盘 周 期 是 5 秒 。 
unsafe 模 式 性 能 比较 好 ， 但 是 最 不 安全 ， 因 为 一 般 情 况 下 宿主 机 不 执行 虚拟 机 的 刷 盘 请 求 ， 只 有 在 虚拟 机 的 进程 结束 的 时 候 ， 才 会 执行 刷 盘 动 作 ， 因 此 在 安装 系统 的 时 候 可 以 考虑 这 种 方式 。 



































5.3 ”磁盘 镜像 格式 





KVM 虚 拟 机 的 磁盘 镜像 从 存储 方式 上 看 ， 可 以 分 为 两 种 方式 ， 第 一 种 方式 为 存储 于 文件 系统 上 ， 第 二 种 方式 为 直接 使 用 裸 设 备 。 裸 设备 的 使 用 方式 可 以 是 直接 使 用 裸 盘 ， 也 可 以 是 使 用 LVM 的 方式 。 存 
于 文件 系统 上 的 镜像 有 多 种 格式 ， 如 raw、cloop、cow、qcow、qdcow2、vmdk、vdi 等 ， 经 常 使 用 的 是 raw 和 qcow2。 














5.3.4. QEMU 支 持 的 磁盘 镜像 格式 


QEMU 支 持 的 磁盘 镜像 格式 有 以 下 几 种 。 


“ taw: faw 格 式 是 简单 的 二 进 制 镜 像 文件 ， 一 次 性 会 把 分 配 的 磁盘 空间 占用 。traw 支 持 稀疏 文件 特性 ， 稀 疏 文 件 特性 就 是 文件 系统 会 把 分 配 的 空 字 节 文件 记录 在 元 数据 中 ， 而 不 会 实际 占用 磁盘 空间 。 
Linux 常 用 的 ext4、xfs 文 件 系统 都 支持 稀 朴 特性 ，Windows 系 统 的 ntfs 也 支持 稀 朴 特性 。 所 以 在 ext4 文 件 系统 上 ， 我 们 一 开始 创建 的 raw 格 式 的 镜像 文件 ， 用 1s 命 令 和 用 du 命令 看 到 的 大 小 是 不 一 样 的 。 使 用 1S 命 令 
看 到 的 是 分 配 的 大 小 ， 使 用 du 命令 看 到 的 是 实际 使 用 的 大 小 。 如 果 希 望 实际 分 配 和 占用 的 大 小 一 致 ， 我 们 可 以 使 用 dd 命令 创建 taw 的 虚拟 机 镜像 文件 。 


“ coop: 压缩 的 loop 格 式 ， 主 要 用 于 可 直接 引导 优盘 或 者 光盘 的 一 种 镜像 格式 。 
“cow: 写 时 复制 格式 ， 因 为 历史 兼容 性 原因 还 在 支持 ， 这 种 镜像 格式 不 支持 Windows 庶 拟 机 。 
“ qcow; 第 一 代 的 QEMU 写 时 复制 格式 ， 被 dcow2 替 代 ， 因 为 历史 兼容 性 原因 还 在 支持 。 
“qcow2; 第 二 代 的 QEMU 写 时 复制 格式 ， 支 持 很 多 特性 ， 如 快照 、 在 不 支持 稀 朴 特性 的 文件 系统 上 也 支持 精简 方式 、AES 加 密 、zlib 压 缩 、 后 备 方式 。 
«vmdk: VMware 产品 的 镜像 格式 。 
«vdi: VirtualBox 的 镜像 格式 。 
. vpcvhd: 微软 hyperV 镜 像 格式 。 
< dmg: Mac 磁 盘 镜像 格式 。 
| nbd: 网 络 块 设备 。 
“ parallels: 半 虚 拟 化 镜像 格式 。 
1. 镜 像 创 建 及 查看 


(1) 镜像 创建 














镜像 的 创建 使 用 qemu-img create 命 令 ， 可 使 用 -{ 参 数 指定 镜像 格式 ， 不 指定 时 默认 为 raw 格 式 。 比 如 创建 一 个 50GB、 名 字 为 test 的 raw 格 式 的 镜像 ， 命 令 为 : 





























qemu-img create test 50G 
Formatting 'test', fmt-raw size-53687091200 





创建 一 个 50GB 的 镜像 ， 格 式 为 gcow2， 名 字 为 test.qcow2， 命 令 为 : 


qemu-img create test.qcow2 -f qcow2 50G 
Formatting 'test.qcow2', fmt-qcow2 size-53687091200 encryption-off cluster size-65536 





(2) 镜像 信息 查看 




















使 用 qemu-img info 命 令 可 以 查看 镜像 的 信息 。 比 如 查看 刚才 创建 的 镜像 ， 可 以 使 用 以 下 命令 : 














qemu-img info test 

image: test 

file format: raw 

virtual size: 50G (53687091200 bytes) 
disk size: 0 

qemu-img info test.qcow2 

image: test.qcow2 

file format: qcow2 

virtual size: 50G (53687091200 bytes) 
disk size: 136K 

cluster size: 65536 











分 别 用 s 和 du 命令 ， 可 以 看 到 两 种 镜像 格式 在 磁盘 空间 上 的 差别 。 











ls -lh test* 
-rw-r--r-- 1 root root 50G Oct 23 15:56 test 


-rw-r--r-- 1 root root 194K Oct 23 15:58 test.qcow2 


-rw-r--r-- 1 root root 0 Oct 16 11:19 test.txt 


du -h test* 

0 test 

136K test.qcow2 
0 test.txt 





这 是 因为 在 ext4 的 文件 系统 上 创建 ，ext4 支 持 稀疏 特性 ， 所 以 test 的 raw 格 式 镜像 文件 ， 上 
查看 ， 都 是 非常 小 。 





2.QEMU 镜 像 格 式 转换 


(1) 镜像 格式 转换 





















































ls 命令 显示 空间 是 50GB， 用 du 命令 查看 是 0GB。 而 test.qcow2 因 为 使 用 的 是 qcow2 格 式 ， 无 论 用 ls 和 du 命令 














使 用 qemu-img convert 命 令 可 以 转换 镜像 格式 。 比 如 将 刚才 创建 的 test 镜 像 转 换 为 名 为 test1.qcow2 的 qcow2 镜 像 格 式 ， 命 令 如 下 : 








qemu-img convert -p -f raw -O qcow2 test testl.qcow2 


(20.04/1005) 





-p 是 显示 转换 进度 ，-f 是 指 原 有 的 镜像 格式 ，-O 是 输出 的 镜像 格式 ， 然 后 是 输入 文件 和 输出 文件 。 








ls -lh test* 
-rw-r--r-- 1 root root 50G Oct 23 15:56 test 


-rw-r--r-- 1 root root 194K Oct 23 16:07 testl.qcow2 
-rw-r--r-- 1 root root 194K Oct 23 15:58 test.qcow2 





通过 ls 命令 ， 可 以 看 到 test1.qcow2 已 经 非常 小 了 。 





qemu-img info testl.qcow2 

image: testl.qcow2 

file format: qcow2 

virtual size: 50G (53687091200 bytes) 
disk size: 136K 

cluster size: 65536 





通过 qemu-img info 命 令 查看 ， 镜 像 确实 已 经 转换 成 qcow2 格 式 了 。 





(2) 压缩 和 加 密 镜 像 的 转换 











如 果 要 做 镜像 压缩 和 加 密 ， 只 能 使 用 convert 方 式 。 将 test1.qcow2 压 缩 的 命令 为 : 








qemu-img convert -c -f qcow2 -O qcow2 test2.qcow2 test3.qcow2 




















只 有 qcow2 支 持 压缩 特性 ， 压 缩 使 用 zlib 算 法 ， 压 缩 是 块 级 别 的 压缩 ， 并 且 是 只 读 的 ， 就 是 当 压 缩 的 块 被 重 写 的 时 候 ， 是 不 压缩 的 。qcow2 镜 像 的 压缩 在 镜像 被 传输 的 时 候 特 别 有 意 义 ， 因 























压缩 ， 要 比 用 tar 压 缩 效 率 高 很 多 。 








qcow2 镜 像 加 密使 用 aes 算 法 ， 将 镜像 加 密 的 命令 为 : 

















为 是 块 级 的 





qemu-img convert -f qcow2 -O qcow2 test2.qcow2 test3.qcow2 -o encryption 


Disk image 'test3.qcow2' is encrypted. 
password: 





命令 执行 的 时 候 ， 会 要 求 输入 密码 。 通 过 qemu-img info 命 令 会 看 到 镜像 确实 被 加 密 了 。 





qemu-img info test3.qcow2 

image: test3.qcow2 

file format: qcow2 

virtual size: 50G (53687091200 bytes) 
disk size: 136K 

encrypted: yes 

cluster size: 65536 























镜像 加 密 只 用 于 镜像 传输 ， 使 用 的 时 候 ， 必 须 通 过 convert 方 式 对 镜像 转换 ， 以 达到 解密 的 目的 。 如 果 直 接 挂 载 加 密 镜 像 到 虚拟 机 ， 虚 拟 机 会 不 能 正常 启动 。 

















镜像 格式 转换 也 可 以 使 用 virt-convert 命 令 ， 在 5.3.4 节 有 介绍 。 
































磁盘 转换 于 不 同 虚 拟 化 产品 的 虚拟 机 镜像 转化 ， 比 如 将 VMware 的 vmdk 转 换 成 KVM 专 用 的 qcow2 格 式 。 














3.QEMU 镜 像 快照 


下 面 介绍 快照 相关 操作 。 








raw 格 式 不 支持 快照 ， 只 有 qcow2 格 式 才 支 持 快照 ， 快 照 使 用 qemu-img 的 参数 snapshot 管 理 。 














1) 快照 创建 使 用 -c 参 数 和 快照 的 名 字 。 例 如 创建 名 为 s1 的 快照 ， 使 用 如 下 命令 。 


























qemu-img snapshot test.qcow2 -c sl 














2) 快照 查看 ， 使 用 -| 参数 。 








qemu-img snapshot test.qcow2 -1 

Snapshot list: 

ID TAG VM SIZE DATE VM 

i s1 0 2014-10-24 08:05:14 
2 s2 0 2014-10-24 08:05:50 


CLOCK 


00:00:00.000 
00:00:00.000 











3) 删除 快照 ， 使 用 -d 参 数 。 











qemu-img snapshot test.qcow2 -d s2 











4) 还 原 快 照 ， 使 用 -a 参 数 。 











qemu-img snapshot test.qcow2 -a sl 











5) 快照 单独 提取 镜像 ， 可 以 使 用 convert 人 参数 进行 转换 。 











qemu-img convert -f qcow2 -0 qcow2 -s sl test.qcow2 test-sl.qcow2 





外 二 


快照 的 原理 是 利用 写 时 复制 的 机 制 ， 所 以 快照 对 性 能 有 影响 ， 生 产 环 境 建议 最 多 创建 一 次 快照 。 


4 镜像 一 致 性 检查 








可 以 使 用 check 参 数 对 镜像 进行 一 致 性 检查 ， 镜 像 检查 只 支持 qcow2、qed、vdi 格 式 ， 命 令 为 : 














qemu-img check [-f format] filename 





* --output=ofmt 参 数 可 以 限制 检查 结果 输出 ，ofmt 格 式 是 human 或 者 json。 
“ -If 参数 可 以 强制 镜像 修复 ， 默 认 是 块 级 别 的 修复 ，-t 纪 修 复 所 有 错误 ,但 是 有 很 多 的 风险 ， 可 能 导致 镜像 不 能 被 使 用 。 
5. 后 备 镜像 差 量 


(1) 后 备 镜像 简介 





后 备 镜像 差 量 是 指 多 台 虚 拟 机 共用 一 个 后 备 镜像 ， 每 个 虚拟 机 根据 需要 ， 如 果 是 读 操作 ， 读 取 镜 像 ， 如 果 是 写 操 作 ， 才 写 入 自己 的 镜像 文件 ， 类 似 快 照 的 copy on write 机 制 。 后 备 镜像 可 以 是 raw 和 
qcow2 格 式 ， 差 量 镜像 只 能 是 qcow2 格 式 。 























使 用 差 量 方式 的 好 处 : 








1) 快速 生成 虚拟 机 镜像 。 通 过 一 条 命令 ， 瞬 间 生 成 虚拟 机 镜像 。 








2) 节省 磁盘 空间 。 多 人 台 虚 拟 机 共用 一 个 后 备 镜像 ， 节 省 大 量 空间 。 














(2) 后 备 镜像 的 创建 

















差 量 镜像 创建 使 用 -b 参 数 指定 后 备 镜像 ， 其 他 参数 和 创建 普通 镜像 是 一 样 的 。 











qemu-img create -f qcow2 -b w2k3-test w2k3-test-01 





查看 创建 的 镜像 ， 可 以 看 到 后 备 镜像 的 信息 。 





qemu-img info w2k3-test-01 

image:  w2k3-test-01 

file format: qcow2 

virtual size: 50G (53687091200 bytes) 
disk size: 196K 

cluster size: 65536 

backing file: w2k3-test 





(3) 将 差 量 镜像 转换 成 普通 镜像 








使 用 qemu-img convert 命 令 转换 差 量 w2k3-test-01 为 普通 镜像 w2k3-test-01-10， 格 式 为 qcow2。 











qemu-img convert -f qcow2 -O qcow2 w2k3-test-01 w2k3-test-01-10 
qemu-img info w2k3-test-01 

image: w2k3-test-01 

file format: qcow2 

virtual size: 8.0G (8589934592 bytes) 
disk size: 122M 

cluster size: 65536 

backing file: /data/win2003ent32chs 
qemu-img info w2k3-test-01-10 

image: w2k3-test-01-10 

file format: qcow2 

virtual size: 8.0G (8589934592 bytes) 
disk size: 3.3G 

cluster size: 65536 





(4) 更 换 镜像 的 后 备 镜像 











使 用 qemu-img rebase 命 令 更 换 后 备 镜像 ，-u 参 数 非 安全 方式 ， 只 是 更 换 镜像 。 不 带 参数 -u， 会 比较 旧 的 后 备 镜像 和 新 的 后 备 镜像 的 差异 ， 以 新 的 镜像 为 准 。 











qemu-img rebase -u -b w2k3-test-01-10 w2k3-test-01 
qemu-img info w2k3-test-01 

image: w2k3-test-01 

file format: qcow2 

virtual size: 8.0G (8589934592 bytes) 

disk size: 122M 

cluster size: 65536 

backing file: w2k3-test-01-10 





(5) 后 备 镜像 合并 


















































将 文件 改变 的 内 容 合并 到 后 备 镜像 中 ， 主 要 用 于 需要 更 新 后 备 镜像 的 场景 ， 使 用 qemu-img commit 命 令 。 





qemu-img commit [-f format] filename 











(6) 后 备 镜像 差 量 技术 生产 环境 的 使 














后 备 镜像 差 量 生成 虚拟 机 的 方式 可 以 快速 产生 大 量 的 虚拟 机 ， 节 省 磁盘 空间 ， 特 别 适 合 桌面 虚拟 化 这 样 的 场景 。 经 过 测试 ， 对 后 备 镜像 的 读 压力 非常 小 ， 系 统 压力 3 











的 时 候 ， 为 了 取得 良好 效果 ， 应 将 后 备 镜 像 和 差 量 镜像 分 散 到 不 同 的 物理 硬盘 上 ， 并 保证 镜像 的 安全 性 。 














使 用 差 量 方式 的 风险 : 








“ 多 台 虚 拟 机 启动 的 时 候 ，[/ 〇 压力 非常 大 ， 尤 其 是 第 一 次 启动 的 时 候 。 


“ 对 后 备 镜像 安全 性 要 求 非常 高 。 


6.QEMU 镜 像 大 小 修改 























qemu-img 命 令 的 resize 参 数 用 于 修改 镜像 大 小 ， 但 是 这 种 方式 只 能 修改 镜像 大 小 ， 不 能 修改 文件 系统 。 如 果 要 修改 镜像 大 小 的 同时 修改 文件 系统 ， 需 要 使 








修改 test2.qcow2 镜 像 的 大 小 ， 先 查看 一 下 镜像 目前 的 大 小 。 




















要 集中 在 差 量 镜像 的 写 压力 。 使 


guestfish 套 件 的 virt-resize 命 令 。 





qemu-img info test2.qcow2 

image: test2.qcow2 

file format: qcow2 

virtual size: 55G (59055800320 bytes) 
disk size: 136K 

cluster size: 65536 








镜像 大 小 增加 5GB， 使 用 参数 +5G。 














qemu-img resize test2.qcow2 +5G 
Image resized. 











使 用 qemu-img info 命 令 查 一 看 下 效果 。 








qemu-img info test2.qcow2 

image: test2.qcow2 

file format: qcow2 

virtual size: 60G (64424509440 bytes) 
disk size: 136K 

Cluster size: 65536 





也 可 以 直接 指定 镜像 修改 后 的 大 小 。 








qemu-img resize test2.qcow2 70G 
Image resized. 











使 用 qemu-img info 命 令 查看 一 下 效果 。 











qemu-img info test2.qcow2 

image: test2.qcow2 

file format: qcow2 

virtual size: 70G (75161927680 bytes) 
disk size: 136K 

cluster size: 65536 


qcow2 镜 像 不 支持 镜像 缩小 ， 如 果 缩 小 会 报错 。 


qemu-img resize test2.qcow2 50G 
This image format does not support resize 





raw 镜 像 可 以 缩小 ， 先 通过 qemu-img info 查 看 一 下 镜像 。 


qemu-img info test 

image: test 

file format: raw 

virtual size: 40G (42949672960 bytes) 
disk size: 0 














使 用 qemu-img resize 命 令 缩小 镜像 。 





qemu-img resize test 20G 
Image resized. 





查看 缩小 效果 。 


qemu-img info test 

image: test 

file format: raw 

virtual size: 20G (21474836480 bytes) 
disk size: 0 





注意 ,镜像 缩小 的 时 候 ， 要 先 将 分 区 和 文件 系统 缩小 ， 否 则 会 造成 数据 丢 : 





5.3.2 ” 裸 设备 使 用 








裸 设备 的 使 用 可 以 直接 挂 载 裸 盘 给 虚拟 机 ， 也 可 以 挂 载 vm。 建 议 在 生产 环境 中 使 














失 。 








vm ， 因 为 lvm 可 以 动态 地 进行 调整 ， 可 以 做 快照 ， 管 理 起 来 比较 方便 。 


























Ivm 的 管理 使 用 、 动 态 扩展 等 资料 很 多 ， 这 里 就 不 袭 述 了 ， 只 介绍 一 下 lvm 在 KYM 虚拟 化 中 的 一 些 注意 事项 。 








(1) Ivm cache 配 置 








一 般 给 虚拟 机 挂 载 裸 盘 ， 都 是 为 了 获得 更 高 的 读 / 写 性 能 ， 所 以 都 是 比较 和 


关闭 /etc/lvmy/lvm.conf 文 件 中 lvm 的 写 缓存 。 








要 的 虚拟 机 才 使 用 裸 盘 的 方式 。 如 果 使 用 vm， 建 议 将 lvm cache 关 闭 ， 防 止 宿 3 


机 因为 























EX, 

















write cache state = 0 





默认 是 1 为 开启 状态 ， 清 空 cache _dir 指 向 的 目录 内 容 ， 一 般 是 : 





cache dir = "/etc/lvm/cache" 





(2) lvm 快 


照 























在 虚拟 机 运行 状态 下 ， 建 议 不 要 做 |vm 快 照 ， 可 能 会 出 现 数据 不 一 致 的 情况 ， 尤 其 是 数据 库 业务 的 虚拟 机 ，lvm 快 照 也 是 采用 写 时 复制 的 机 制 ， 因 此 生产 环境 建议 制作 一 次 快照 ， 多 次 快照 会 影响 虚拟 机 


(3) lvm 的 ; 


精简 模式 












































从 CentOS 6.4 开 始 ， 支 持 vm 精 简 模 式 ，CentOS 6.4 是 预览 技术 ，CentOS 7.1 已 经 是 正式 支持 的 技术 。Ivm 精 简 模 式 的 原理 为 建立 一 个 精简 模式 的 资源 池 ， 然 后 在 资源 池上 划分 lv，Iv 可 以 超 用 空间 ， 
并 且 是 用 多 少 写 多 少 。 














(4) clvm 介 绍 


clvm 是 |vm 的 集群 方式 ， 一 般 用 于 集群 的 块 设备 使 用 ， 主 要 是 多 了 验证 功能 ， 抑 制 两 台 服务 器 同时 对 一 个 |v 进 行 写 操作 。 


5.3.3 ” KVM 虚拟 机 镜像 管理 利器 guestfish 














guestfish 套 件 是 镜像 管理 的 “瑞士 军刀 ”， 在 没有 guestfish 这 个 套件 之 前 ， 对 虚拟 机 镜像 的 处 理 ， 要 么 虚拟 机 运行 起 来 修改 ， 要 么 使 用 下 面 介绍 的 办 法 ， 总 之 很 不 方便 。 














1. 虚 拟 机 镜像 挂 载 及 Windows 2008 Server 系 统 自 检 慢 问题 的 解决 办 法 


下 面 介 绍 的 挂 载 办 法 只 适应 于 块 设备 镜像 的 挂 载 。 在 guestfish 出 来 之 前 ， 对 镜像 的 处 理 ， 只 能 是 先 转化 成 raw 格 式 ，raw 再 转化 成 裸 格 式 ， 然 后 挂 载 ， 非 常 痛 苦 。 





在 KVM 虚 拟 机 上 ， 经 常 碰 到 这 样 的 问题 ， 就 是 Windows 2008 Server 的 虚拟 机 重启 的 时 候 ， 磁 盘 检查 需要 几 个 小 时 ， 即 使 新 装 的 系统 也 是 这 样 。 下 面 我 们 介绍 通过 裸 设 备 挂 载 的 方式 擦 除 Windows 
2008 Server 磁 盘 检查 标志 的 方法 ， 绕 过 这 个 问题 。 


操作 方法 如 下 。 


第 1 步 : 在 宿 3 

















机 上 安装 最 新 的 ntfs-3g。 





wget http://tuxera.com/opensource/ntfs-3g ntfsprogs-2012.1.15.tgz 
tar -zxvf ntfs-3g ntfsprogs-2012.1.15.tgz 

cd ntfs-3g ntfsprogs-2012.1.15 

./configure --bindir-/usr/bin 


make 


make install 











第 2 步 : 扩展 镜像 ， 将 镜像 挂 载 ， 并 清除 NTFS 镜 像 重 启 检测 信息 。 








了 


@@ 使 用 losetup-f 命 令 得 到 可 用 的 loop 设 备 。 

















losetup -f 


/dev/1oop0 





@ 挂 载 镜像 





losetup /dev/loop0 /dev/vmVG/ptyyb-webzb-57 vda 


















































第 3 步 : 使 用 kpartx 将 镜像 分 区 映射 ， 如 果 2008 镜 像 是 一 个 分 区 ， 默 认 会 挂 载 到 /dewmappervloop0p1。 因 为 2008 默 认 安 装 的 时 候 会 有 一 个 boot 分 区 ， 那 么 C 盘 就 在 /dewmappervloop0p2 上 ,， 读 者 
可 根据 自己 的 实际 情况 挂 载 。 
kpartx -av /dev/loopO 














第 4 步 : 清除 NTFS 磁 盘 镜像 检测 标志 信息 ， 使 用 ntfsfix 命 令 。 参 数 -b-d 很 重要 ， 这 两 个 参数 是 清除 NTFS 的 检测 标志 信息 ， 只 有 最 新 版 的 ntfs-3g 支 持 。 

















ntfsfix -b -d /dev/mapper/loop0p1 


第 5 步 : 分 离 镜 像 映射 。 


kpartx -dv 


/dev/loop0 





第 6 步 : 分 离 镜像 挂 载 。 





losetup -d 


/dev/loop0 








2.guestfisht T ELEME 





guestfish 是 一 套 虚 拟 机 镜像 管理 的 利器 ， 提 供 一 系列 对 镜像 管理 的 工具 ， 也 提供 对 外 的 API。 























FE 要 包含 以 下 工 . 











guestfish3 





， 如 表 5-1 所 示 。 


表 5-1 guestfish 主 要 包含 的 工具 


I RA 
guestfish 
guestmount 
guestumount 
virt-alignment-scan 
virt-builder 
virt-cat 
virt-copy-in 
virt-copy-out 
virt-customize 
virt-df 
virt-diff 
virt-edit 
virt-filesystems 
virt-format 
virt-inspector 
virt-list-filesystems 
virt-list-partitions 
virt-log 
virt-ls 
virt-make-fs 
virt-p2v 
virt-p2v-make-disk 
virt-p2v-make-kickstart 


virt-rescue 


F X 
挂 载 镜 像 ， 并 提供 一 个 交互 的 shell 
将 镜像 挂 载 到 指定 的 目录 
卸载 镜像 目录 
镜像 块 对 齐 扫描 
快速 镜像 创建 
显示 镜像 中 的 文件 内 容 
复制 文件 到 镜像 内 部 
复制 镜像 文件 出 来 
定制 虚拟 机 镜像 
查看 虚拟 机 镜像 空间 的 使 用 情况 
不 启动 虚拟 机 的 情况 下 ， 比 较 虚拟 机 内 部 两 份 文件 的 差别 
编辑 虚拟 机 内 部 文件 
显示 镜像 文件 系统 信息 
格式 化 镜像 内 部 磁盘 
镜像 信息 测试 
列 出 镜像 文件 系统 
列 出 镜像 分 区 信息 
显示 镜像 日 志 
列 出 镜像 文件 
镜像 中 创建 文件 系统 
物理 机 转 只 拟 机 
创建 物理 机 转 虚 拟 机 ISO 光盘 
创建 物理 机 转 虚 拟 机 kickstart 文件 
进入 虚拟 机 救援 模式 


I A * 
virt-resize 虚拟 机 分 区 大 小 修改 
virt-sparsify A (SUR BLA 9l TER 
virt-sysprep 镜像 初始 化 
virt-tar 文件 打包 并 传人 / 传 出 镜像 
virt-tar-in 文件 打包 并 传人 镜像 
virt-tar-out 文件 打包 并 传 出 镜像 


virt-v2v 其 他 格式 虚拟 机 镜像 转 KVM 镜像 


virt-win-reg 注册 表 导 入 镜像 
libguestfs-test-tool 测试 libguestfs 

hivex 解压 Windows 注册 表 文 件 
hivexregedit 合并 、 导 出 注册 表 文 件 内 容 
hivexsh 注册 表 修 改 交互 的 shell 





hivexml 将 Window 注册 表 转 化 为 .xml 








hivexget 得 到 注册 表 键 值 
guestfsd guestfs 服务 


3.9guestfish 安 装 与 注意 事项 


guestfish 套 件 安装 非常 简单 ， 一 条 命令 就 可 以 。 





yum install libguestfs-tools 





默认 安装 是 不 安装 Windows 系 统 支持 的 ， 如 果 需 要 修改 Windows 系 统 镜像 ， 需 要 再 运行 如 下 命令 : 





yum install libguestfs-winsupport 























CentOS 6.5 以 后 及 CentOS 7 的 yum 源 中 没有 了 libguestfs-winsupport 这 个 组 件 ， 可 以 使 用 如 下 命令 安装 Windows 支 持 : 





rpm -ivh \ 

http: //people.redhat.com/-rjones/libguestfs-winsupport/7/7.0/x86 64/libguestfs- 
winsupport-7.0-2.e17.x86 64.rpm 

rpm -ivh \ T 

http: //people.redhat.com/-rjones/libguestfs-winsupport/6/x86 64/libguestfs- 
winsupport-1.0-7.e16.x86 64.rpm 





4. 使 用 guestfish 查 看 虚拟 机 信息 


虚拟 机 镜像 信息 查看 ， 主 要 通过 virt-inspector 和 virt-inspector2 命 令 。 





virt-inspector - Display OS version, kernel, drivers, mount points, 
applications, etc. in a virtual machine 





' virt-inspectot 显 示 OS 版 本 、 内 核 、 驱 动 、 挂 载 点 、 应 用 ， 等 等 。 


“ virt-inspector2 显 示 OS 版 本 和 其 他 信息 。 


1) virt-inspector 使 用 很 简单 ， 在 命令 后 面 加 需要 检测 的 镜像 就 可 以 ， 命 令 运行 后 会 输出 镜像 的 系统 信息 。virt-inspector 示 例如 下 : 





virt-inspector centos5332.qcow2 
linux centos 1386 5.3 (CentOS release 5.3 (Final)) on /dev/wmvg/root: 
Mountpoints: 
/dev/vnwg/root / 
/dev/sdal /boot 
/dev/vmvg/swap swap 
Filesystems: 
/dev/sdal: 
label: /boot 
UUID: 152ec813-72cc-4eal-ad76-71c470feff2f 
type: ext3 
content: linux-grub 
/dev/vmvg/ root : 
label: 
UUID: 9462b99e-04d9-4648-9d5d-2ce50d8ed8f2 
type: ext3 
content: linux-root 
/dev/vmvg/ swap: 
type: swap 
Modprobe aliases: 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





也 可 以 通过 --query 输 出 一 些 固定 内 容 ， 方 便 脚 本 判断 。 





virt-inspector --query centos5332.qcow2 
windows-no 
linux-yes 

rhel-no 

fedora-no 

debian-no 
fullvirt-yes 

xen domU kernel-no 
xen pv drivers-yes 
virtio drivers-yes 
kernel arch-i386 
userspace arch-i386 





输出 也 可 以 是 xm 格式 ， 加 --xml 参 数 即 可 。 


2) virt-inspector 命 令 检测 Windows 虚 拟 机 示例 如 下 。 





indows 1386 5.2 (Microsoft Windows Server 2003) on /dev/sdal: 
Mountpoints: 
/dev/sdal / 
Filesystems: 
/dev/sdal: 
type: ntfs 
content: windows-root 
Applications: 





virt-inspector2 输 出 为 xml 格 式 ， 系 统 相关 信息 比 virt-inspector 详 细 。 


3) virt-inspector2 和 virt-inspector 命 令 类 似 ， 输 出 信息 是 xml 文 件 形式 。virt-inspector2 示 例如 下 : 





virt-inspector2 centos5332.qcow2 

«xml version-"1.0"» 

Xoperatingsystems» 

Xoperatingsystem» 

«root»/dev/vmvg/ root«/root» 
«name»linux«/name» 
«arch»i386«/arch» 
«distro»centos«/distro» 
«product name»CentOS release 5.3 (Final)«/product name» 
«major version»5«/major version» 


http: / /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





4) virt-inspector2 检 测 Windows 虚 拟 机 示例 如 下 : 





<arch>i386</arch> 
<distro>windows</distro> 
<product_name>Microsoft Windows Server 2003</product_name> 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 








5. 使 用 guestfish 查 看 虚拟 机 分 区 及 文件 系统 


(1) 虚拟 机 分 区 及 文件 系统 查看 





虚拟 机 分 区 及 文件 系统 查看 主要 使 用 3 个 命令 。 











1) 列 出 虚拟 机 镜像 文件 分 区 信息 。 








virt-list-partitions 








2) 列 出 虚拟 机 镜像 文件 系统 、 分 区 、 块 设备 、Ivm 信 息 。 





virt-filesystems 





3) 查看 虚拟 机 镜像 分 区 是 否 块 对 齐 。 








virt-alignment-scan 





(2) 分 区 及 文件 系统 查看 示例 





1) Linux 镜 像 查看 。 





virt-list-partitions centos6232.qcow2 
/dev/sdal 
/dev/sda2 

virt-list-filesystems centos6232.qcow2 
/dev/sdal 
/dev/xmvg/ root 





可 以 看 到 镜像 centos6232.qcow2 有 两 个 分 区 ， 文 件 系统 挂 载 的 是 /devw/sda1 和 /devvmvg/root。 





2) Windows 镜 像 查看 。 





virt-list-filesystems win2k3.qcow2 
/dev/sdal 

virt-list-partitions win2k3.qcow2 
/dev/sdal 








可 以 看 到 镜像 win2k3.qcow2 有 一 个 分 区 ， 文 件 系 统 挂 载 的 是 /dev/sda1。 


3) 检查 镜像 是 否 块 对 齐 。 





virt-alignment-scan -a win2k3.qcow2 
/dev/sdal 32256 512 bad (alignment « 4K) 





从 命令 结果 看 ，win2k3.qcow2 镜 像 sda1 这 个 分 区 块 没有 对 齐 。 





virt-alignment-scan -a centos6232.qcow2 
/dev/sdal 1048576 1024K ok 
/dev/sda2 210763776 1024K ok 





从 命令 结果 看 ，centos6232.qcow2 镜 像 /dev/sda1、/dev/sda2 块 都 对 齐 了 。 


6. 去 掉 磁 盘 空 洞 





KVM 虚 拟 镜像 的 稀疏 问题 

















虚拟 机 磁盘 经 常会 有 大 量 的 空洞 ， 比 如 swap 分 区 、 通 过 dd 命令 占有 的 磁盘 空间 等 。guestfish 套 件 中 的 virt-sparsify 命 令 可 以 消除 磁盘 镜像 中 的 空洞 ， 方 便 镜 像 传输 。 下 面 介绍 一 下 virt-sparsify 的 使 




















方法 。 


(1) ext4 的 稀疏 问题 








因为 ext4 的 稀 玻 特性 ， 使 用 不 同方 式 创建 的 几 个 镜像 文件 对 比如 下 。 














qemu-img create -f raw test.raw 5G 
#qemu-img 创 建 raw 格 式 镜像 

qemu-img create -f qcow2 test.qcow2 5G 
#qemu-img 创 建 qcow2 格 式 镜像 

dd if-/dev/zero of-/root/test.dd bs-1G count-5 
# 通 过 dd 命令 创建 ram 镜 像 





通过 ls 和 du 命令 进行 查看 ， 会 发 现 一 件 非常 有 意思 的 事情 。 





ls -1 

-rw-r--r-- 1 root root 5.0G Oct 13 22:46 test.dd 
-rw-r--r-- 1 root root 193K Oct 13 22:58 test.qcow2 
-rw-r--r-- 1 root root 5.0G Oct 13 22:58 test.raw 
du test* 

5242880 test.dd 

196 test.qcow2 

0 test.raw 





从 输出 结果 来 看 ，|s 命 令 看 到 两 种 raw 镜 像 都 是 5GB， 但 是 通过 du 命令 ， 会 发 现 dd 命 令 创建 的 裸 格式 是 5GB，Qemu-img 命 令 创建 的 raw 格 式 是 0GB， 为 什么 会 这 样 呢 ? 这 是 因为 ext4 文 件 系统 是 一 个 
支持 稀 琉 特性 的 文件 系统 ， 当 文件 内 容 全 部 是 空 的 时 候 ，ext4 并 不 分 配 实 际 的 空间 。 














如 果 想 要 使 用 raw 方 式 ， 并 希望 一 次 占用 完 所 有 的 空间 ， 则 可 以 使 用 dd 命令 创建 这 样 的 方式 。 








(2) qcow2 的 稀疏 问题 





qcow2 方 式 也 有 稀疏 的 问题 ， 在 磁盘 级 别 上 看 ， 镜 像 会 有 大 量 连 续 的 相同 空洞 ， 比 如 刚 创建 的 镜像 的 swap 分 区 ， 通 过 virt-sparsify 命 令 可 以 消除 这 些 空洞 ， 从 而 缩小 磁盘 大 小 ， 便 于 我 们 传输 磁盘 镜 
像 。 

















使 用 virt-sparsify 前 ， 需 要 先 创建 一 个 新 的 同样 大 小 的 镜像 。 





qemu-img create -f qcow2 test2.qcow2 5G 











然后 使 用 virt-sparsify 去 除 镜像 空洞 。 











virt-sparsify -x  /root/test.qcow2 --convert qcow2 /root/test2.qcow2 





7. 用 guestfish 操 作 虚 拟 机 内 部 文件 


1) 虚拟 机 内 部 文件 管理 命令 











虚拟 机 内 部 文件 管理 主要 使 用 以 下 命令 。 











“ virt-df: 镜像 磁盘 空间 使 用 查看 。 





Dvirtls: 列 出 指定 目录 内 文件 。 

“virt-cat: 显示 指定 文件 内 容 。 

' virt-edit: 编辑 指定 文件 。 

“virt-copy-in: 将 文件 复制 到 虚拟 机 内 部 。 
“virt-copy-out: 将 虚拟 机 内 部 文件 复制 出 来 。 
“virt-tar-in; tar 压 缩 文件 复制 进 虚 拟 机 并 解压 。 


* virt-tar-out: 镜像 内 指定 目录 文件 复制 并 压缩 。 








*virt-tar: 解压 或 者 上 传 文件 到 虚拟 机 。 
(2) 示例 


1) 查看 镜像 磁盘 空间 。 





virt-df -a centos6364.qcow2 

Filesystem 1K-blocks Used Available Use% 
centos6364.qcow2:/dev/sdal 198337 32098 155999 17$ 
centos6364.qcow2:/dev/vmvg/root 16308136 1210172 14269548 8% 





2) 查看 镜像 /root 目 录 内 容 。 





virt-ls -a centos6364.qcow2 /root 
.bash history 

-bash logout 

.bash profile 

„bashrc 

.cshrc 

.tcshrc 

anaconda-ks.cfg 

install.log 

install.log.syslog 





3) 显示 指定 文件 内 容 。 





virt-cat -a centos6364.qcow2 /root/anaconda-ks.cfg 
4 Kickstart file automatically generated by anaconda. 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





4) 编辑 指定 文件 。 





virt-edit -a centos6364.qcow2 /root/anaconda-ks.cfg 





5) 文件 复制 进 镜像 及 复制 出 镜像 。 





touch test.txt 
virt-copy-in test.txt -a centos6364.qcow2 /root/ 
virt-copy-out -a centos6364.qcow2 /root/test.txt /home 





6) 压缩 文件 复制 进 虚 拟 机 并 解压 。 





virt-tar-in -a disk.img data.tar /destination 





7) 镜像 内 指定 目录 文件 复制 并 压缩 。 





virt-tar-out -a disk.img /dir files.tar 





8) 将 虚拟 机 的 home 目 录 复 制 出 来 并 打包 。 





virt-tar -x domname /home home.tar 





9) 上 传 本 地 的 压缩 文件 到 虚拟 机 并 解压 。 





virt-tar -u domname uploadstuff.tar /tmp 





8.guestfish 修 改 镜像 格式 和 大 小 

(1) guestfish 修 改 镜像 格式 的 命令 
修改 镜像 格式 和 大 小 主要 使 用 以 下 命令 。 
“virt-convert: 转换 虚拟 机 镜像 格式 。 
“virt-tesize: 修改 虚拟 机 镜像 磁盘 。 

(2) 示例 

1) raw 转 qcow2 格 式 Virtio 


需要 先 用 qemu-img 命 令 创建 一 个 一 样 大 小 的 空 qcow2 格 式 镜像 文件 ， 然 后 使 用 virt-convert 命 令 进 行 转换 。 





virt-convert -i raw -o qcow2 old.img new.qcow2 





原始 镜像 可 以 是 VMware 镜像 vmx、kvm 镜 像 、ovf 的 镜像 。 


2) 将 指定 的 分 区 扩大 5GB。 








创建 一 个 新 的 镜像 ， 比 原来 大 5GB， 然 后 扩展 ， 命 令 如 下 : 





virt-resize --expand /dev/sda2 olddisk newdisk 





3) 将 boot 增 加 200MB， 剩 下 的 空间 扩充 给 /dev/sda2。 





virt-resize --resize /dev/sdal-4200M --expand /dev/sda2 \ 
olddisk newdisk 





4) WP RE, 





virt-resize --expand /dev/sda2 --LV-expand /dev/vg guest/lv root \ 
olddisk newdisk 








5) 扩展 分 区 ， 并 将 raw 格 式 转换 成 qcow2 格 式 。 





qemu-img create -f qcow2 newdisk.qcow2 15G 
virt-resize --expand /dev/sda2 olddisk newdisk.qcow2 





注意 : 


“ 如 果 是 扩展 分 区 ， 目 标 磁盘 文件 必须 大 于 原生 磁盘 。 


E 磁盘 缩小 比较 复杂 ， 一 般 要 求 缩小 到 的 空间 远大 于 文件 系统 的 大 小 。 


9.guestfish 挂 载 、 修 改 、 运 行 救援 方式 


(1) 挂 载 、 修 
”guestmount : 


- guestfish: 4& 


改 、 运 行 救援 命令 
挂 载 镜像 到 某 个 目录 。 


载 镜像 并 得 到 一 个 交互 的 shell。 


“ virt-rescue: 运行 一 个 镜像 的 救援 模式 。 











文 3 个 命令 使 





(2) 示例 


1) 只 读 方式 将 镜 














的 时 候 很 相似 ， 都 是 使 用 -a 参 数 指定 要 处 理 的 镜像 。 








像 挂 载 到 /mnt 目 录 。 

















guestmount -a 


windows.img -m /dev/sdal --ro /mnt 





) 将 Linux 虚 拟 机 的 根 目录 挂 载 到 宿主 机 的 /mnt 目 录 。 








guestmount -a 


linux.qcow2 -m /dev/sda2 /mnt 





3) guestfish 编 辑 镜像 grub 文 件 。 





guestfish --rw --add disk.img V 
--mount /dev/vg guest/lv root \ 
--mount /dev/sdal:/boot V 
edit /boot/grub/grub.conf 





外 二 


--rw 参 数 用 可 写 


4) 进入 镜像 的 


方式 挂 载 ，--mount 参 数 挂 载 块 设备 到 目录 ，edit 命 令 编辑 grub.conf。 


救援 模式 。 





$ virt-rescue --suggest -d Fedoral5 
http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/ . . n 3-35 Zr dir th 
# 进 入 救援 模式 ， 并 可 以 运行 一 些 命令 
»«rescue» lvs 
LV VG Attr LSize Origin Pu Move Log Copy$ Convert 
lv root vg f15x32 -wi-a- 8.8 


lv: Swap, vg_f15x32 -wi-a- a [m 


# 查 看 jv 信息 


><rescue> mount /dev/vg f15x32/1v root /sysroot 
»«rescue» mount /dev/vdal /sysroot/boot 
»«rescue» ls /sysroot 

»«rescue» chroot /sysroot 


HERL, 


并 修改 根 分 区 





5.34 raw、qcow2、 裸 盘 、lvm 性 能 比较 


几 种 镜像 方式 的 性 能 如 何 ， 做 了 一 个 简单 的 对 比 测试 。 


(1) 测试 环境 


' 宿主 机 和 虚拟 机 版 本 : CentOS release 6.6 (Final) 。 


“磁盘: 宿主 


(2) 测试 结果 


如 图 5-6 所 示 ，4K 读 测试 raw 性 能 最 好 ，qcow2、lvm 次 之 。 虚 拟 机 的 读 性 能 比 物理 机 好 ， 是 因 














如 图 5-7 所 示 ，4K 随 机 读 写 测试 中 ， 裸 设备 lvm 性 能 最 好 ， 文 件 系统 镜像 raw、qcow2 性 能 次 之 。 虚 拟 机 lvm 方 式 比 物理 机 性 能 好 ， 是 因为 |vm 还 有 一 


，300GB，RAID 5; 虚拟 机 一 一 100GB raw 硬 盘 一 块 ， 


100GB qcow2 磁 盘 一 块 ，100GB lvm 磁 盘 一 块 ， 所 有 磁盘 选择 Virtio 了 驱动， 虚拟 


纪 磁 盘 缓 存 方式 为 writethough。 














为 磁盘 缓存 方式 为 writethough， 读 缓存 是 开启 的 ， 所 以 使 用 





层 缓存 。 


虚拟 机 的 读 性 能 比 物理 机 要 好 。 





4K 随 机 读 


坐标 轴 标 题 


Com [om [enm 
6293 2654 2727] 


3 
p 
* 
Xe 
i 


E 4K 随 机 写 2187 2556 2780 2221 


图 5-7 ” 几 种 镜像 方式 的 4 区 随机 写 比 较 





5.3.5 ”磁盘 镜像 格式 的 应 用 场景 
在 生产 环境 中 ， 建 议 磁盘 镜像 格式 按照 如 下 原则 使 用 : 
:CPU 消耗 型 的 虚拟 机 使 用 dcow2 这 样 的 文件 镜像。 
.磁盘 I/O 消 耗 型 的 虚拟 机 使 用 vm 这 样 的 裸 设备 。 


CPU 消 耗 型 的 虚拟 机 使 用 qcow2 的 镜像 格式 ， 是 因为 qcow2 格 式 相对 性 能 不 如 裸 设备 ， 但 是 有 许多 非常 好 的 特性 ， 比 如 数据 用 多 少 写 多 少 、 可 以 做 快照 、 可 以 加 密 、 可 以 动态 进行 扩展 。 



































磁盘 /O 消 耗 型 的 虚拟 机 使 用 vm， 主 要 是 因为 |vm 是 裸 设 备 ， 读 / 写 性 能 比较 好 ， 而 且 可 以 动态 地 进行 扩展 ， 也 可 以 做 快照 。 




















5.4 ”文件 系统 块 对 齐 


文件 系统 块 对 齐 也 是 虚拟 化 磁盘 调 优 的 重要 软件 手段 ， 并 且 在 低 版 本 的 操作 系统 上 效果 明显 ， 在 生产 环境 部 署 低 版 本 操作 系统 的 虚拟 机 时 需要 引起 注意 。 








541 ”什么 是 块 对 齐 


























Windows 2008 之 前 的 Windows 系 统 ，2010 年 以 前 的 Linux 系 统 ， 第 一 个 分 区 的 扇 区 是 磁盘 第 63 房 区， 并 且 扇 区 尺寸 是 512Byte， 这 个 是 历史 的 原因 ， 硬 盘 必 须 将 cylinder/head/sector (CHS) 信息 
报告 给 BIOS， 这 个 信息 在 现代 的 操作 系统 中 是 无 意义 的 ， 但 是 磁盘 依然 报告 给 BIOS 每 个 磁盘 轨道 有 63 个 扇 区 ， 因 此 操作 系统 依然 将 第 一 个 分 区 的 开始 位 置 放置 到 第 一 个 磁盘 轨道 上 ， 从 第 63 个 扇 区 开始 。 














































































































当 虚 拟 化 的 时 候 ， 虚 拟 机 操作 系统 和 虚拟 化 引擎 也 许 采 用 以 下 几 种 对 齐 方式 。 








' 512B 方 式 : 虚拟 机 操作 系统 使 用 本 地 裸 设备 ， 并 且 裸 设备 使 用 512bit 的 局 区。 
“ 4KB 方 式 : 在 新 的 本 地 硬盘 上 使 用 4KB 的 物理 扇 区 ; 在 基于 文件 系统 的 存储 方式 上 使 用 4KB 物 理 扇 区 ; 在 基于 网 络 的 存储 方式 上 使 用 4KB 物 理 扇 区 。 


“ 64KB 方 式 : 在 高 速 网 络 存储 上 使 用 ， 是 一 些 高 速 网 络 存储 的 默认 值 。 











.1MB 方 式 : 微软 从 Windows Server 2008 开 始 默认 采用 1MB 的 块 对 齐 方式 ， 如 图 5-8 所 示 。 随 后 Linux 系 统 做 了 跟 进 。 





DISKPRRI? list partition 


DISKPART> 





图 5-8 Windows Server 2008 K 3 45 4$1MB 











[ 


























假设 虚拟 机 是 512B 的 扇 区 ， 会 看 到 Windows 2008 第 一 个 分 区 从 第 2048 个 扇 区 开始 ， 随 后 的 分 区 从 2048 售 数 个 扇 区 开始 。 图 5-9 所 示 为 虚拟 机 和 宿主 机 文件 系统 块 对 齐 示意 图 。 














虚拟 机 文件 虚拟 机 文件 虚拟 机 文件 
系统 块 系统 块 系统 块 


宿主 机 文件 宿主 机 文件 宿主 机 文件 
系统 块 系统 块 系统 块 系统 块 











图 5-9 虚拟 机 和 宿主 机 文件 系统 块 对 齐 示意 








块 对 齐 的 问题 如 下 : 











举 个 例子 ， 在 4KB 扇 区 的 系统 上 ， 虚 拟 机 的 文件 系统 块 ， 第 63 扇 区 横 跨 物理 机 文件 系统 的 两 个 块 ， 会 造成 一 个 块 的 读 / 写 操作 ， 横 跨 两 个 物理 机 的 块 ， 产 生 额 外 的 MO 开销 。 














块 对 齐 查看 可 以 使 用 virt-alignment-scan 命 令 。 








virt-alignment-scan -a os images 1 


/dev/sdal 32768 32K bad (alignment « 64K) 
virt-alignment-scan -a os images 2 

/dev/sdal 65536 ~ "64K ok 
virt-alignment-scan -a centos62x64 

/dev/sdal 1048576 1024K ok 

/dev/sda2 210763776 1024K ok 


5.4.2” 块 对 齐 与 块 不 对 齐 性 能 比较 


1. 块 对 齐 性 能 测试 


下 面 我 们 通过 块 对 齐 性 能 测试 来 进行 性 能 对 比 。 





(1) 测试 环境 


- 硬件 : HP DL380G7 CPU, Intel (R) Xeon (R) E5520*2 内 存 ，24GB 硬 盘 ，146GB*8 RAID 10. 
- 宿主 机 操作 系统 : CentOS 6.3 升 级 到 最 新 内 核 版 本 kernel 2.6.32-279.14.1.016.x86. 64. 

- 虚拟 机 操作 系统 : Windows 200332 中 文 企业 版 。 

“ 测试 工具 : Iometer。 

(2) 测试 方法 


采用 4K 随 机 写 。 


Q9. 


如 何 横向 比较 磁 瘟 的 I/O 性 能 ? 


4 区 随机 写 是 一 个 业界 常用 的 比较 指标 ， 意 思 是 4 区 B 大 小 的 数据 块 在 磁盘 上 一 秒 钟 随机 写 入 的 次 数 。 同 样 ，4 区 随机 读 也 是 一 个 重要 的 指标 ， 意 思 是 4KB 大 小 的 数据 块 在 磁盘 上 一 秒 钟 随机 读 取 的 次 数 。 





(3) 测试 结果 
“ 块 没有 对 齐 的 虚拟 机 : IOPS 165。 
- 块 对 齐 的 虚拟 机 : IOPS 187。 


如 图 5-10 所 示 ， 同 样 环境 下 ， 块 对 齐 速 度 快 13.3%。 





块 没有 对 齐 的 虚拟 机 块 对 齐 的 虚拟 机 





图 5-10 块 对 齐 与 块 不 对 齐 性 能 比较 
2. 哪 些 系统 存在 块 对齐 的 问题 


Windows 系 统 方面 ，Windows 2008 Server 之 前 的 版 本 都 存在 块 对 齐 的 问题 ， 主 要 是 Windows 2003 Server 和 桌面 的 Windows XP，Windows 2008 Server 和 Windows 7 以 后 的 系统 ， 默 认 都 会 有 
1MB 的 偏 移 量 ， 解 决 了 这 个 问题 。 


Linux 系 统 方面 ，CentOS 6 以 前 的 系统 ， 如 CentOS 5, RHEL 5 都 存在 块 对 齐 的 问题 ， 从 CentOS 6 和 RHEL 6 以 后 ， 像 Windows 系 统一 样 ， 都 有 一 个 偏 移 量 ， 已 经 解决 了 这 个 问题 。 


5.4.3 ”生产 环境 如 何 配置 块 对 齐 


1.Windows 系 统 


安装 的 时 候 ， 使 用 winpe 引 导 ， 通 过 diskpart 命 令 先 划分 分 





风 





diskpart 
select disk 0 
clean 
create partition primary align-64 





划分 分 区 后 ， 格 式 化 分 区 ， 安 装 操作 系统 。 








2.Linux 系 统 





使 用 kickstart 文 件 。 先 在 预 处 理 的 部 分 用 parted 分 区 ， 然 后 即 可 使 用 分 








多 





part /boot --fstype ext3 --onpart vdal 

part pv.2 --onpart vda2 

volgroup VolGroup00 --pesize-32768 pv.2 

# 划 分 vg 名 字 为 Vol1Group00 

logvol swap --fstype swap --name-LogVol01 --vgname-VolGroup00 --size-1008 --grow 
--maxsize-2016 

logvol / --fstype ext3 --name-LogVol00 --vgname-VolGroup00 --size-1024 --grow 
# 划 分 两 个 lv， 一 个 是 swap， 一 个 是 根 

%pre 

parted /dev/vda mklabel msdos -s 

parted /dev/vda mkpart primary ext3 2048s 409600s -s 

MIESE, M20484 EFi, ERREA E R 

parted /dev/vda mkpart primary 411648s 100% -s 

parted /dev/vda set 2 lvm on s 

# 按 照 扇 区 来 划分 磁盘 空间 ， 每 个 扇 区 是 512 字 节 ， 一 般 开 始 和 结束 按照 2048 个 扇 区 的 倍数 来 开始 








3. 使 有 











已 经 安装 好 的 虚拟 机 镜像 可 以 使 


de] i£ — 4-qcow2 45 
qemu-img create kuai-no-vda-2-yes 


# 使 用 virt-resize 调 整 镜像 ， 并 在 调 


virt-resize 命 令 更 改 块 对 齐 方式 























virt-resize 命 令 更 改 块 对 齐 方式 。 


-f qcow2 6G 
整 的 时 候 强 制 块 对 齐 


virt-resize --align-first always --expand /dev/vdal kuai-no-vda kuai-no-vda-2-yes 
# 查 看 块 对 齐 是 否 成 功 
[root@lab-kvm-test178 datapool]# virt-alignment-scan -a kuai-no-vda-2-yes 
/dev/sda1 65536 64K ok 


9... 


使 用 virt-resize 命 令 存 在 一 个 问题 ， 就 是 Windows 系 统 使 用 virt-resize 命 令 修 改 磁盘 大 小 之 后 的 虚拟 机 镜像 不 能 再 次 使 用 virt-resize 命 令 ; 但 是 Linux 系 统 可 以 多 次 使 用 virt-resize 命 令 修 改 磁盘 大 小 。 


5.5 ”SSD 在 KVM 庶 拟 化 中 的 使 用 实践 





55.1 


1.SLC, 


Flash 的 最 小 存储 单元 是 晶 浮 栅 晶 体 管 ， 在 固态 盘 中 ， 在 存储 和 


能 读 / 写 两 种 状态 
式 存 储 (TLC) ，TLC 也 称 作 3-bit MLC。SLC、MLC 及 TLC 的 读 / 写 速度 依 序 从 快 至 慢 ， 使 
读 取 很 容易 。MLC 有 多 种 状态 ， 读 取 时 容易 出 错 ， 需 要 校 验 ， 速 度 相对 较 慢 。 实 际 MLC 的 状态 识别 过 程 比 上 述 复杂 很 多 ， 读 取 一 次 MLC 的 功 耗 比 SLC 大 很 多 。 
的 擦 写 ， 而 MLC 材 料 只 能 接受 万 次 级 擦 写 操 作 ， 所 以 M 


SSD 原 理 与 写 放 大 


MLC、TLC 闪 存 区 别 





固态 硬盘 (Solid State Disk, Solid State Drive, SSD) 是 一 种 以 存储 器 Flash 作 为 永久 性 存储 器 的 存储 设备 。 








H 
e 
p 
a 
E 


















































的 晶体 管 的 Flash 的 存储 


元 称 为 单 











Flach 成 本 更 低 ， 存 储 单元 体积 更 小 ， 这 也 导致 市 面 


Flash 颗 粒 是 大 量 浮 栅 晶体 管 的 阵列 ， 一 般 的 U 盘 中 会 有 1~2 粒 Flash 颗 粒 ， 视 容量 而 定 ; 在 SSD 硬 盘 中 ， 常 见 会 有 更 多 粒 Flash 颗 粒 ， 并 | 
的 颗粒 也 就 越 多 ， 性 能 也 就 越 好 。 





Flash 


























LC 的 寿命 比 SLC 短 很 多 。 但 是 ， 也 是 最 重要 的 























上 多 数 固 态 盘 都 采 上 


























了 MLC 型 的 Flash 颗 粒 。SLC 由 于 其 

















2.SSD 的 写 放大 


SSD 的 硬盘 有 Page 和 Block 的 概念 。 
SSD 一 次 写 的 重 


写 的 时 候 ，SSD 的 Write 只 能 写 到 空 的 page 上 ， 对 了 


:将 在 


Ez 





同一 个 Block 中 的 其 他 Page 读 出 来 。 


个 Block 擦 除 。 


“ 将 整个 Block 的 数据 写 下 去 。 





和 位 是 Page 即 512KB， 为 什么 不 像 磁盘 一 样 ， 每 次 写 一 个 比特 呢 ? E 


Page 大 小 为 4KB，Block 大 小 为 512KB ( 即 128 个 Block) 。 



































因为 一 个 写 动作 要 操作 三 次 ， 严 重 降低 了 效率 ， 


解决 写 放 大 主要 有 两 个 方案 。 





(1) 预 留 空间 





一 般 固态 硬盘 上 都 有 一 块 保留 空间 ， 消 费 机 级 的 SSD 为 7%~10%， 企 业 级 的 SSD 保 留 空间 在 20% 以 上 ， 甚 至 有 些 产 品 有 100% 的 保留 空间 。 使 
写 放大 ，SSD 的 芯片 在 空闲 的 时 候 再 对 删除 的 块 进行 清除 。 所 以 写 入 频繁 


(2) 使 
TRIM 是 现在 公认 的 解决 写 放 大 的 比较 好 的 方案 。TRIM 位 于 操作 系统 层 。 操 作 系统 使 


支持 TRIM 的 操作 系统 和 以 往 的 主要 区 别 是 删除 一 个 Page 的 操作 不 同 。 
支持 TRIM 的 操作 系统 ， 在 删除 一 个 Page 时 ， 会 同时 通知 SSD 这 个 Page 的 














TRIM 技 术 








这 个 过 程 叫 作 SSD 的 写 放 大 ， 也 叫 写 惩 罚 。 


的 时 候 ， 保 留 空间 越 多 的 SSD 性 能 





























在 磁盘 时 期 ， 凡 





每 次 写 操作 ， 就 在 已 经 Erase 好 了 的 Page 上 写 入 新 的 数据 。 越 是 新 的 操作 系统 对 Trim 特 性 支持 得 越 好 。 


5j5.2. SS 


D 在 KVM 中 的 使 用 




















使 

















是 上 一 代 的 





SSD， 需 要 先 对 SSD 在 KVM 虚拟 化 中 使 有 
SSD， 但 是 测试 结论 在 新 一 代 的 SSD 上 依 


1. 测 试 环境 


(1) 硬件 


1) 测试 服务 器 一 。 











越 好 。 


元 晶体 管 的 栅 (Gate) 中 注入 不 同 数量 的 电子 ， 通 过 改变 栅 的 导电 性 能 ， 


有 SATA 及 PCI-Express 接 口 的 加 速 卡 。 








层 式 存储 (SLC) ， 能 读 / 写 4 种 状态 的 晶体 管 的 Flash 的 存储 单元 称 为 多 层 式 存储 (MLC) ， 能 读 / 写 6 种 状态 的 晶体 管 的 Flash 的 存储 单元 称 为 三 
寿命 依 序 从 长 至 短 ， 成 本 依 序 从 高 至 低 ， 需 要 纠 错 比特 数 (ECC) 则 是 相反 地 从 低 至 高 。SLC 的 状态 简单 ， 所 以 


变 晶体 管 的 导 通 效果 ， 实 现 对 不 同 状态 的 记录 和 识别 。 
































， 由 于 MLC 中 的 信息 量 大 ， 同 一 个 存储 
特性 ， 仅 在 高 端的 高 速 存储 设备 中 使 用 。 目 前 


F 之 前 写 过 的 Page， 必 须 先进 行 一 次 Erase。 而 Erase 的 单位 是 Block， 所 以 如 果 一 个 Page 的 数据 删 掉 之 

















元 ， 信 息 量 是 SLC 


固态 硬盘 的 主流 从 SLC 芯片 转 到 


于 材料 本 身 的 缘故 ，SLC 可 以 接受 10 万 次 级 
的 N 倍 ， 所 以 相同 容量 的 磁盘 ，MLC 类 型 
MLC 芯 片 。 














原因 是 为 了 防止 电子 干扰 ， 保 证 数据 的 稳定 和 准确 。 








目 Flash 颗 粒 可 以 同时 进行 读 / 写 。 所 以 一 般 固态 硬盘 的 容量 越 


后 ， 要 想 再 写 到 这 个 Page 上 ， 必 须 经 过 以 下 三 














保留 空间 的 好 处 是 ， 随 时 都 能 保证 有 未 使 














的 空间 ， 减 少 














TRIM 命 令 来 通知 SSD 某 个 Page 的 数 











居 不 需要 了 ， 可 以 回收 了 。 





























SSDE 











除 一 个 Page， 之 后 在 文件 系统 的 记录 信息 里 将 该 Page 的 标志 位 设置 为 可 有 
数据 不 需要 了 ，SSD 内 部 有 一 个 空闲 时 刻 的 垃圾 收集 进程 ， 在 空闲 时 刻 SSD 会 将 一 些 空闲 的 数据 集中 到 一 起 ， 然 后 一 起 Erase。 这 样 


























进行 测试 ， 建 立 数据 模型 ， 根 据 模 型 再 确定 最 好 的 使 


方式 及 使 有 











中 








注意 的 地 方 。 本 节 是 笔者 做 过 的 








日 有 效 。 








， 但 是 并 没有 将 数据 删除 。 使 有 











于 Intel 320 SSD 在 KYM 上 做 的 测试 ，320 虽 然 


< HP DL380G7: 424GB, CPU Intel (R) Xeon (R) E5620, (22.40GHz. 
- Intel 320160GB*8 RAID 10, 
2) 测试 服务 器 二 。 
: 联想 510G7: 内 存 8GB，CPU 是 Intel (R) Xeon (R) E5506，@2.13GHz。 
- Intel 320300GB*2 RAID 1. 
3) 测试 服务 器 三 。 
< HP DL380G6: 内 存 16GB，CPU 是 Intel (R) Xeon (R) E5520, (22.27GHz. 
- Intel 320160GB*4 RAID 10。 
(2) 软件 


宿主 机 系统 : CentOS 6.3 内 核 版 本 2.6.32-279.22.1.el6.x86 64, 


























测试 工具 : 所 有 Linux 系 统 使 用 fio， 所 有 Windows 系 统 使 用 ometer。 














(3) 测试 准备 工作 








为 保证 测试 准确 性 ， 做 了 以 下 工作 。 


1) 关闭 所 有 测试 服务 器 的 |vm 缓 存 。 





Vim /etc/lvm/lvm.conf 

write cache state = 0 

sed -i s/write cache state\ =\ l/write cache state\ =\ 0/g /etc/lvm/lvm.conf 
rm /etc/lvm/cache/* -rf m ui 


2) 拔 掉 所 有 测试 服务 器 的 RAID 卡 电池 。 
3) 修改 内 核 的 缓存 机 制 ， 定 时 清空 缓存 。 


编辑 crontab， 每 分 钟 执行 以 下 命令 : 





echo 3 >> /proc/sys/vm/drop caches 
echo 1 > /proc/SCSI/sg/allow dio 





























4) 因为 SSD 有 写 放大 问题 ， 先 将 SSD 写 满 ， 再 进行 测试 。 所 有 SSD 测 试 前 ， 先 使 用 脚本 反复 写 满 数据 10 次 。 
for (( i=0; i<10; i++)) 
ind $i; 


dd if-/dev/zero of-/dev/datavg/sdcl bs-10M; 
} 





2. 测 试 结果 


(1) 物理 机 上 5 种 使 用 方式 最 大 性 能 测试 结果 














这 5 种 方式 的 性 能 测试 结果 如 表 5-2 和 图 5-11 所 示 。 


表 5-2 SSD 物 理 机 上 5 种 使 用 方式 最 大 性 能 测试 结果 









Gluster 每 节点 
HP4 块 160GB | HP2 块 160GB | 联想 2 块 300GB drbd 每 节点 4 
R A 联想 2 块 4 块 160GB 每 节点 A 


测试 内 容 RAID 10 RAID 1 RAID odg | 9068 RAID tO 


4K 顺序 读 IOPS 
4K 顺序 写 IOPS 
4K 随机 读 IOPS 
4K 随机 写 IOPS 























E AKJI Y 13€ 
B AK Jii 35 ^5j 


4K 随 机 读 
目 4K 随 机 写 





图 5-11 SSD 物 理 机 上 5 种 使 用 方式 最 大 性 能 测试 结果 对 比 


从 图 5-11 中 可 以 得 出 以 下 结论 : 





C SSD 读 性 能 好 于 写 性 能 。 
“ 容量 越 大 的 SSD， 性 能 越 好 。 


(2) 不 同系 统 的 虚拟 机 性 能 测试 对 比 





1) HP 服务 器 ， 宿 主机 上 4 块 (160GB 硬 盘 ) SSD 做 RAID 10， 然 后 测试 这 台 宿 主机 上 不 同 操作 系统 的 虚拟 机 性 能 ,结果 如 表 5-3 和 图 5-12 所 示 。 


表 5-3 SSD RAID10 不 同 操作 系统 的 性 能 结果 


Midi 文件 系统 AK 文件 系统 4K Lv 4K 
随机 读 IOPS 随机 与 IOPS 随机 读 IOPS 随机 写 IOPS 
CentOS 6.2 2918 





E AK Bá pL 
B AK p ptg 


E Lv 4K 随 机 读 
E Ly 4K 随 机 写 





图 5-12 SSD RAID 10 不 同 操作 系统 的 性 能 对 比 


2) 联想 服务 器 ， 宿 主机 上 两 块 SSD 做 RAID 1， 然 后 测试 这 人 台 宿 主机 上 不 同 操作 系统 的 虚拟 机 性 能 ， 结 果 如 表 5-4 和 图 5-13 所 示 。 





表 5-4 ”联想 2 块 RAID 1 虚拟 机 测试 
测试 内 容 
Windows 2003 
Windows 2008 
CentOS 5.6 
CentOS 6.2 





m AK pti pix: 
m 4K 随 机 写 


^ Lv 4K 随 机 读 
B Lv 4K| 汀 机 写 


Windows 2003 Windows 2008 CentOS 5.6 CentOS 6.2 





图 5-13 SSD RAID 1 不 同 操作 系统 的 性 能 对 比 


从 图 5-12 和 图 5-13 中 可 以 得 出 以 下 结论 : 





“ 基于 文件 系统 ， 同 样 条 件 下 Linux 系 统 虚 拟 机 性 能 好 于 Windows 系 统 虚 拟 机 。 
“ 虚拟 机 使 用 SDD， 基 于 Lv 的 裸 设备 磁盘 ， 性 能 好 于 基于 文件 系统 的 磁盘 。 
(3) 分 布 式 文件 系统 上 虚拟 机 性 能 测试 
初步 测试 了 使 用 SSD 搭 建 GlusterFS 和 DRBD 两 种 分 布 式 文件 系统 下 虚拟 机 的 使 用 效果 (分 布 式 文件 系统 在 虚拟 化 中 的 使 用 在 第 9 章 、 第 10 章 有 详细 介绍 ) 。 测 试 结果 如 表 5-5 所 示 。 


表 5-5 GFS 和 DRBD 上 虚拟 机 性 能 对 比 测试 结果 


测试 内 容 4K 随机 写 
GFS Windows 2003 50 
DRBD Windows 2003 826 





图 5-14 所 示 是 GFS 和 DRBD 上 虚拟 机 性 能 对 比 测试 。 


E AK pti pis: 


加 4K 随 机 写 


DRBD 
Windows Windows 
2003 2003 





图 5-14 GFS 和 DRBD 上 虚拟 机 性 能 对 比 测试 


从 图 5-14 中 可 以 得 出 以 下 结论 : 


“ 同 物 理 机 SSD 性 能 相 比 ， 虚 拟 机 性 能 相差 很 大 。 





- 测试 条 件 下 ，GlusterFS 性 能 好 于 DRBD。 
3. 测 试 结论 
综合 上 面 的 测试 结果 ， 可 以 得 出 以 下 结论 : 
- 使 用 SSD 在 读 方面 可 以 达到 数 万 以 上 的 IOPS， 在 写 方面 可 以 达到 数 千 左右 的 IOPS， 相 对 机 械 硬盘 有 很 大 的 优势 。 


“ 在 虚拟 化 中 ， 为 了 充分 发 挥 SSD 性 能 ， 虚 拟 机 磁盘 应 该 使 用 裸 设备 映射 ， 而 不 是 qcow2 格 式 的 文件 系统 。 


5.5.3 ”Flachcache 配 置 与 性 能 测试 


1.Flashcache 介 绍 


Flashcache 是 一 款 针对 Linux 系 统 的 块 设备 缓存 的 工具 ， 可 以 编译 为 内 核 模块 ， 使 用 Device Mapper 实 现 。 原 理 是 用 高 速 设备 做 缓存 ， 把 数据 先 缓存 到 高 速 设备 上 ， 到 一定 阅 值 ， 再 写 到 低速 设备 上 。 
因为 高 速 设 备 一 般 比 较 昂贵 ，Flashcache 的 目标 是 综合 高 速 设备 和 低速 设备 的 优势 。 





Flashcache 支 持 writeback、writethrough、writearound、writeonly 4 种 缓存 方式 。 

(1) writethrough 缓 存 方式 

writethrough 是 一 种 比较 安全 的 缓存 方式 ， 所 有 的 写 操作 写 到 SSD 并 且 立 即 写 到 机 械 硬盘 ， 所 有 的 读 操作 都 被 缓存 。 
(2) writearound 缓 存 方式 

writearound 是 一 种 非常 安全 的 缓存 方式 ， 数 据 不 写 到 SSD， 直 接 写 到 机 械 硬 盘 ， 所 有 的 读 操作 都 被 缓存 。 

(3) writeback 缓 存 方式 

writeback 速 度 快 ， 但 是 牺牲 一 定 的 安全 ， 数 据 只 写 到 SSD， 并 按照 一 定 的 策略 刷 到 机 械 硬 盘 ， 所 有 的 读 操作 都 被 缓存 。 
(4) writeonly 缓 存 方式 

writeonly 是 writeback 的 一 个 变种 ， 只 缓存 写 ， 读 不 缓存 。 


writethrough 和 writearound 缓 存 方式 不 受 设备 移 除 或 者 重启 影响 。writeback 缓 存 会 受 设备 移 除 或 者 重启 影响 。 


2.Flashcache 安 装 与 使 用 
(1) 安装 


Flashcache 官 方 网址 为 https://github.com/facebook/flashcache。 安 装 方式 如 下 : 





wget https://github.com/facebook/flashcache/archive/master.zip 
unzip master.zip 

cd flashcache-master/ 

cd src/ 

make 

make install 





(2) 使 用 
flashcache 命令 主要 有 以 下 几 个 。 

* flashcache_create: 创建 一 个 新 的 Flashcache 卷 。 

* flashcache, destroy: 删除 Flashcache 卷 。 

* flashcache_load: 加 载 Flashcache 卷 。 
3.Flashcache 性 能 测试 

(1) 测试 环境 
1) 硬件 。 
测试 服务 器 : 

- 联想 510G7: 内 存 8GB，CPU 是 Intel (R) Xeon (R) E5506，@2.13GHz。 
* Sas 146*3 RAID 0。 

- Intel SSD 3700200GB*1 RAID 0. 
2) 软件 。 

“ 宿主 机 系统 : CentOS 6.3， 内 核 版 本 2.6.32-279.22.1.el6.x86_64。 
“测试 工具 : 所 有 Linux 系 统 使 用 io， 所 有 Windows 系 统 使 用 Iometet。 
(2) 测试 准备 工作 
同 5.5.2 节 SSD 测 试 。 


(3) 配置 





用 sdc 做 sdb 的 缓存 。 





# flashcache create -p back cachedev /dev/sdc /dev/sdb 

cachedev cachedev, ssd devname /dev/sdc, disk devname /dev/sdb cache mode WRITE BACK 
block size 8, md block size 8, cache size 0 

Flashcache metadata will use 1192MB of your 24016MB main memory 








# flashstat 








Flashstat: a tool for flashcache status per second 


Author 
Version 


: NinGoo (seaman.ning(gmail.com) 
0.3 

















SSD Devici 


/dev/sdc Disk Device: /dev/sdb Cache Mode: WRITE BACK 
Capacity: | 303998M Block Size: 4K Meta Block Size: 4096b 
Total Blocks: 71823488 Cached Blocks: 9 Cached Percent: 0 
Set Numbers: 512 Dirty Blocks: 0 Dirty Percent: 0 
cache all: pa reclaim policy: FIFO dirty thresh pct: 20 
max clean ios set: 2 max clean ios total: 4 skip seq thresh: OK 


time read/s write/s diskr/s diskw/s ssdr/s ssdw/s uread/s uwrit/s metaw/s 
clean/s repl/s wrepl/s hit% whit% dwhit$ 
03-13 14:51:20 0 0 0 

0 0 0 


0 0 0 0 0 
0 0110 010 010 











使 用 命令 fdisk-l/dev/mapper/cachedev， 可 以 看 到 一 个 裸 设备 。 











Disk /dev/mapper/cachedev: 146.8 GB, 146778685440 bytes 
255 heads, 63 sectors/track, 17844 cylinders 

Units = cylinders of 16065 * 512 = 8225280 bytes 
Sector size (logical/physical): 512 bytes / 512 bytes 
I/O size (minimum/optimal): 512 bytes / 512 bytes 

Disk identifier: 0x0002da0a 





外 二 


Flashcahce 可 以 非常 细致 地 控制 读 / 写 比例 、 脏 数据 刷新 周期 等 参数 ， 读 者 可 以 阅读 官方 文档 。 








(4) 使 




















可 以 当 一 个 块 设备 来 使 用 ， 划 分 pv、vg、lv。 








# pvcreate /dev/mapper/cachedev 

Physical volume "/dev/mapper/cachedev" successfully created 
# vgcreate ssdcachetest /dev/mapper/cachedev 

Volume group "ssdcachetest" successfully created 
# lvcreate -L 100G -n ssdcache test lvl ssdcachetest 

Logical volume "ssdcache test lv1" created 





(5) 删除 缓存 设备 





dmsetup remove cachedev 
flashcache destroy /dev/sdc 





(6) 系统 重启 恢复 




















系统 重启 恢复 使 用 flashcache load 命令 重新 装载 。 











语法 为 : 





flashcache load ssd 设 备 名 字 缓存 卷 





例如 : 


flashcache load /dev/sdd cachedev 





也 可 以 添加 服务 为 RHEL/CentOS 服 务 ， 经 过 笔者 的 CentOS6.5 测 试 通过 。 


1) 复制 源 代 码 目录 下 的 flashcache 脚 本 到 /etc/init.d。 





cp utils/flashcache /etc/init.d/flashcache 








2) 给 脚本 添加 执行 属性 。 





chmod +x /etc/init.d/flashcache 








3) 根据 自己 的 环境 编辑 文件 ， 加 入 SSD、 缓 存 设备 、 挂 载 点 等 信息 。 


4) 注册 服务 。 





chkconfig --add /etc/init.d/flashcache 





(7) 测试 结果 
测试 结果 如 表 5-6 所 示 。 


表 5-6 ”SAS 硬盘 和 SSD 硬 盘 Flashcache 性 能 对 比 测试 


测试 内 容 1M 随机 写 
SAS 146GB *3 RAID 0 21 
Flashcache 24 517 117 


HP 4 块 RAID 10 虚 拟 机 测试 的 结果 如 表 5-7 所 示 。 





表 5-7 不 同系 统 的 虚拟 机 性 能 测试 对 比 
测试 内 容 4K 随机 读 Lv 4K 随机 读 Lv 4K 随机 写 
Windows 2008 65 
CentOS 6.2 51 


(8) 测试 结论 





“ 使 用 Flashcache 在 读 / 写 方面 可 以 达到 数 千 IOPS， 是 一 种 性 价 比比 较 高 的 SSD 和 机 械 硬盘 组 合 的 方式 。 


“ 在 虚拟 化 中 ， 为 了 充分 发 挥 Flashcache 的 性 能 ， 虚 拟 机 磁盘 应 该 使 用 裸 设备 映射 ， 而 不 是 qcow2 格 式 的 文件 系统 。 


5.5.4 DM-cache 配 置 














DM-cache 是 一 个 device-mapper 级 别 的 、 用 高 速 存储 设备 做 低速 存储 设备 缓存 的 解决 方案 ， 主 要 应 用 就 是 用 SSD 做 机 械 硬 盘 的 缓存 ， 达 到 的 性 能 和 容量 之 间 的 平衡 。 


























(1) 测试 环境 
1) 硬件 : 


: HP 380 G7, 


- Intel (R) Xeon (R) CPU, X5650, @2.67GHz*224GB H Æ, 146GB 4*2, RAID 1 安装 系统 。 
- 600GB*4 SASZ dt, RAID 10， 划 分 名 为 sasvg 的 vg 作为 低速 设备 。 
* Intel 3500 SSD 300GB/dev/sdd 裸 盘 作为 高 速 设备 。 
2) 软件 : CentOS 7 kernel 3.10.0-123.13.2.e17.x86 64, 
(2) DM-cache 的 主要 创建 步骤 


1) 先 确 定 要 使 用 的 SSD 缓 存 的 大 小 ， 使 用 blockdev--getsize64 命 令 。 





blockdev --getsize64 /dev/sdd 
300035497984 





假设 要 将 SSD 全 部 用 作 缓 存 ，SSD 容 量 是 300GB， 通 过 命令 取得 的 大 小 是 300035497984 字 节 。 
2) 确定 metadata 的 大 小 。 
metadata 大 小 的 计算 公式 是 : 4MB+ (16Bytesxnr_blocks) 。 


nr_blocks 就 是 设备 块 数量 。 默 认 缓存 的 块 大 小 是 256KB， 即 262144 字 节 ， 那 么 元 数据 大 小 计算 方法 是 : 








4194304 + (16*300035497984/262144)=22507017.5 





换算 成 扇 区 : 








22507017.5/512=43959.0185546875 





近似 等 于 43960 字 节 。 


3) 创建 matadata 分 区 。 








dmsetup create ssd-metadata --table '0 439601linear /dev/sdd 0' 
dd if-/dev/zero of-/dev/mapper/ssd-metadata 





4) 计算 剩余 的 肩 区 。 








300035497984/512-43960=585962872 





5) 创建 SSD 缓 存 设备 。 


使 用 元 数据 剩余 的 空间 。 





dmsetup create ssd-blocks --table '0 585962872 linear /dev/sdd 43960' 








6) 确定 低速 设备 的 扇 区 数 。 





blockdev --getsz /dev/sasvg/saslvi 
629145600 





7) 创建 缓存 设备 ， 并 且 是 256KB 的 缓存 块 大 小 。 





dmsetup create home-cached --table '0 629145600 cache /dev/mapper/ssd-metadata 
/dev/mapper/ssd-blocks /dev/sasvg/saslvl 512 1 writeback default 0' 





8) 校 验 设备 。 





ls -1 /dev/mapper/home-cached 

lrwxrwxrwx 1 root root 7 Jan 6 00:52 /dev/mapper/home-cached -> http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/ . . /dm-€ 
dmsetup status /dev/mapper/home-cached 

0 629145600 cache 8 2272/5495 512 4/1144458 72 19 0 0 0 4 0 1 writeback 2 migration 

threshold 2048 mq 10 random threshold 4 sequential threshold 512 discard. 

promote adjustment 1 read promote adjustment 4 write promote adjustment 8 





9) 使 用 设备 。 








mkdir /cache 

mkfs.ext4 /dev/mapper/home-cached 

# 格 式 化 并 挂 载 

mount /dev/mapper/home-cached /cache 

df -h 

/dev/mapper/home-cached 296G 65M 281G 1$ /cache 





10) 删除 设备 。 





umount /dev/mapper/home-cached 
HEER 

# 删 除 设备 

dmsetup remove home-cached 
dmsetup remove ssd-metadata 
dmsetup remove ssd-blocks 





5.5.5 LVM cache 配 置 与 性 能 测试 


(1) LVM cache 简 介 


LVM cache 是 在 DM-cache 的 基础 上 基于 lvm 做 的 配置 ， 也 是 一 种 通过 SSD 做 分 层 的 方案 。 





(2) LVM cache 的 配置 方法 





LVM cache 的 配置 方法 如 下 ， 测 试 环境 同 5.5.4 节 的 环境 。 


1) 创建 慢 速 的 Iv。 





lvcreate -L 300G -n slowlv sasvg 
mkfs.xfs /dev/sasvg/slowlv 





# 格 式 化 

mkfs .xfs /dev/sasvg/slowlv 

meta-data-/dev/sasvg/slowlv isize-256 agcount-4, agsize-19660800 blks 
sectsz-512 attr=2, projid32bit-1 
crc-0Ü 

data - bsize-4096 blocks-78643200, imaxpct-25 


swidth-0 blks 
ascii-ci-0 ftype-0 





naming — -version 2 





log -internal log blocks-38400, version-2 
i sectsz-512 sunit-0 blks, lazy-count-1 
realtime -none extsz-4096 blocks=0, rtextents-0 





2) 将 SSD 磁 盘 加 入 到 sasvg 里 面 。 





vgextend sasvg /dev/sdd 





3) 创建 元 数据 |v 和 缓存 lv。 





lvcreate -L 2G -n metadata sasvg /dev/sdd 
lvcreate -L 270G -n cache sasvg /dev/sdd 











# 查 看 lv 

lvs 

LV VG Attr LSize Pool Origin Data% Move Log Cpy$Sync Convert 
cache sasvg -wi- 270.00g 
metadata sasvg  -w 2.00g 
SlowlV sasvg -wi-a 300.00g 





4) 创建 缓存 池 。 





lvconvert --type cache-pool --poolmetadata sasvg/metadata --cachemode writeback 
sasvg/cache 
Logical volume "lvol0" created 





--cachemode writeback 使 用 回 写 模式 ， 不 声明 默认 是 Writethrough。 


5) 将 慢 速 lv 加 入 缓存 池 。 





lvconvert --type cache --cachepool sasvg/cache sasvg/slowlv 

lvs # 查 看 LV 
LV VG Attr LSize Pool Origin Data$ Move Log Cpy$Sync Convert 
cache sasvg Cwi-a-C--- 270.00g 
slowlv sasvg Cwi-a-C--- 300.00g cache [slowlv corig] 











6) 移 除 LVM cache, 





lvconvert --uncache VG/CacheLV 
# 移 除 的 时 候 会 自动 刷 盘 
lvremove /dev/sasvg/cache 
Flushing cache for slowlv 
0 blocks must still be flushed. 
Do you really want to remove active logical volume cache [y/n]: 





(3) SSD 分 层 性 能 对 比 测试 








笔者 做 了 一 个 简单 的 4K 随 机 写 的 测试 ， 对 比 SSD 直 接 使 用 、Flashcache、DM-cache、LVM cache 4 种 方式 的 性 能 ,结果 如 



































5-15 所 示 。 
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图 5-15 SSD 分 层 对 比 测 试 




















也 最 多 ，DM-cache 是 在 内 核 3.9 才 加 入 的 











如 图 5-15 所 示 ， 直 接 使 























SSD 是 性 能 最 好 的 ， 其 次 是 Flashcache、DM-cache、LVM cache。 这 个 性 能 和 软件 成 熟 度 也 有 关系 ，Flashcache 推 出 最 早 ， 使 


特性 ，LVM cache 技 术 也 是 比较 新 的 技术 。 


5.5.6 ”生产 环境 中 SSD 使 用 要 点 


SSD 的 使 用 寿命 要 比 机 械 硬 盘 短 很 多 ， 因 此 对 SSD 的 寿命 监控 就 比较 重要 。SSD 的 寿命 监控 主要 是 通过 读 取 SSD 硬 盘 的 SMART 信息 。 本 节 介绍 一 下 SSD 硬 盘 SMART 信 息 的 读 取 和 分 析 方 法 。 


(1) Windows 系 统 


Windows 系 统 下 不 带 RAID 卡 ， 可 以 使 用 Intel 的 专用 工具 ， 


























界面 如 图 5-16 和 图 5-17 所 示 。 























MIDI LIAE. 


Intel® 固态 驱动 器 工具 箱 


版 本 312 


| 快速 诊断 扫描 
| 全 面 诊断 扫描 
PNTA 


| 国 件 更 新 


| 系统 调整 器 





驱动 器 信息 摘要 
型 号 Intel® SSD 320 Series 300GB 


固件 版 本 : 4PC10362 
序列 号 : CVPR11300218300EGN 


驱动 器 详细 信息 
SMART 摘要 
驱动 器 健康 状态 


li 33.51 Ms 已 用 空间 


lb :79.30 66 可 用 空间 


DE i SL] 


Su 


SMART 详细 信息 


T5% 


图 5-16 Windows TF Intel SSD 状 态 查 看 工具 


号 Intele MSEJSA 


Intel@ 固态 驱动 器 工具 箱 


版 本 


SMART 详细 信息 


Intel® Optimizer > 
[2 型 亏 : Intel® SSD 320 Series 300GB 


EX 279.39 GB 

HR 

Spin Up Time 

[Start/Stop Count 
Re-allocated Sector Count 








Power-On Hours Count 





Power Cycle Count 





固件 重新 AA, [Available Reserved Space 





AB | Program Fail Count 
AC |Erase Fail Count 


T ，、 5 B7 | SATA Downshift Count 
系统 调整 器 E vielki, 











End-to-End Error Detection 
B8 | Count 随时 可 用 。 





E215 633 | 

系统 信息 BB | Uncorrectable Error Count | 随时 可 用 。 
co [Unsafe Shutdown Count 随时 可 用 。 
C7 | CRC Error Count 随时 可 用 。 























图 5-17 使 用 Intel SSD 状 态 查 看 SSD SMART 信息 








这 种 方法 只 能 监控 Windows 服 务 器 ， 并 且 不 能 有 RAID 卡 ， 因 为 RAID 卡 会 将 硬盘 的 SMART 信息 屏蔽 。 





(2) Linux 系 统 


可 以 透 过 RAID 卡 读 取 硬盘 的 SMART 信息 。 各 种 RAID 卡 的 机 器 ，SMART 信 息 读 取 方 法 如 下 。 











1) 低 端 板 载 的 LS| MPT RAID 卡 ，SMART 信 息 读 取 使 用 smartctl 命 令 ， 方 法 如 下 。 





第 一 块 硬盘 读 取 : 





Smartctl -a -i /dev/sg0 





第 二 块 硬盘 读 取 : 





Smartctl -a -i /dev/sgl 





2) LSI MegaRAID 卡 (主要 是 IBM、 联 想 、 华 为 、 浪 潮 、 戴 尔 等 服务 器 ) ，SMART 信 息 读 取 方法 如 下 。 


第 一 块 硬盘 : 





Smartctl -a -d megaRAID,0 /dev/sda 


第 二 块 硬盘 : 





Smartctl -a -d megaRAID,1 /dev/sda 





3) Hp 服务 器 RAID 卡 ，SMART 信 息 读 取 方法 如 下 (需要 CentOS 6.3 以 上 的 版 本 ) 。 


第 一 块 : 





Smartctl -d sat*cciss,0 -a /dev/sda 





第 二 块 : 


Smartctl -d sat+cciss,1 -a /dev/sda 





(3) SSD SMART 信息 解读 


图 5-18 所 示 是 从 Intel 320 上 读 取 的 SMART 信息 。 


其 中 比较 关注 的 有 以 下 4 点 。 





























例 。 一 旦 这 个 值 降低 到 1， 就 不 再 降 了 ， 同 时 表示 SSD 上 面 已 经 有 NAND 的 擦 写 次 数 到 达 了 最 大 次 数 。 这 个 时 候 建 议 备份 数据 ， 以 及 更 换 SSD。 


2) Reallocated Sector Ct: 出 厂 后 产生 的 坏 块 个 数 ， 初 始 值 为 100; 如 果 有 坏 块 ， 从 1 开始 增加 ， 每 4 个 坏 块 增加 1。 





3) Host Writes 32MiB: 已 写 32MB， 每 写 入 65536 个 扇 区 raw value 增 加 1。 这 个 扇 


4) Available Reservd Space: SSD 上 剩余 的 保留 空间 ， 初 始 值 为 100， 表 示 100%; 


区 还 是 个 数量 和 


位 ，512 字 节 。 比 如 ， 这 块 盘 就 是 1284966x65536x512=40155.1875GB。 














Vendor Specific SMART Attributes with Thresholds: 
VALUE WORST THRESH TYPE 


ID# ATTRIBUTE NAME FLAG 
Spin Up Time 0x0020 
Start Stop Count 0x0030 
Reallocated Sector Ct . 0x0032 
Power On Hours 0x0032 

12 Power Cycle Count 0x0032 

170 Reserve Block Count 0x0033 

171 Program Fail Count 0x0032 

172 Erase Fail Count 0x0032 

183 Runtime Bad Black 0x0030 

184 End-to-End Error 0x0032 

187 Reported Uncorrect 0x0032 

192 Unsafe Shutdown Count . 0x0032 

199 UDMA CRC Error Count 0x0030 

225 Host Writes 32]MiB 0x0032 

226 Workld Media Wear Indic 0x0032 

227 Workld Host Reads Perc  0x0032 

228 Workload Minutes 0x0032 

232 Àvailable Reservd Space 0x0033 

233 Media Wearout Indicator 0x0032 

241 Host Writes 32]MiB 0x0032 

242 Host Reads 32MiB 0x0032 


Q.. 
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图 5-18 Intel 320 上 读 取 的 SMART 信息 


目前 新 一 代 的 服务 器 都 支持 从 带 外 管理 卡 检测 硬盘 监控 状态 ， 也 支持 对 SSD 健 康 状 态 的 检测 ， 使 用 方法 在 第 21 章 有 介绍 。 


(4) SSD 如 何在 生产 环境 中 使 用 


根据 笔者 的 经 验 ，SSD 在 生产 环境 中 的 使 用 方式 有 以 下 几 种 。 











1) 直接 使 用 SSD， 采 用 SSD 和 SAS 磁 盘 组 合 ， 比 如 两 块 SSD 做 RAID 1，6 块 SAS 硬 盘 做 RAID 10， 高 IOPS 的 虚拟 机 使 用 SSD， 推 荐 使 F 


























SAS 硬 盘 ， 使 用 qcow2 的 镜像 格式 。 
































2) 使 用 SSD 分 层 方案 ， 生 产 环 境 推荐 使 用 Flashcache， 系 统 使 用 CentOS 6， 这 种 方式 是 比较 经 济 的 一 种 方式 ， 经 过 笔者 实践 ， 稳 定性 也 不 错 。LVM cache 





要 求 较 高 ， 还 有 待 进一步 实践 。 


5.6 本章 小 结 

















阔 值 为 10， 递 减 到 10 表 示 保 留 空间 已 经 不 能 再 减少 。 


UEDATED 
Offline 
Offline 
Always 
Always 
Always 
Always 
Always 
Always 
Offline 
Always 
Always 
Always 
Offline 
Always 
Always 
Always 
Always 
Always 
Always 
Always 
Always 





LVM 裸 盘 的 形式 直接 挂 给 虚拟 机 使 


已 经 是 许多 虚拟 化 平台 的 默认 选择 。 解 决 磁盘 性 能 问题 ， 最 有 效 的 方案 还 是 硬件 ， 所 以 SSD 这 几 年 也 越 来 越 流行 ， 会 在 生产 环境 中 越 来 越 普及 。 


在 实施 虚拟 化 的 时 候 ， 一 方面 希望 能 获得 更 高 的 性 能 ， 另 一 方面 还 希望 对 虚拟 机 的 资源 能 够 有 所 控制 ， 下 一 章 将 为 读者 介绍 虚拟 机 的 资源 控制 。 





第 6 章 KVM 虚 拟 机 的 资源 限制 






































1) Media Wearout Indicator: 使 用 耗费 ，100 为 没有 任何 耗费 ， 表 示 SSD 上 NAND 的 擦 写 次 数 的 程度 ， 初 始 值 为 100， 随 着 擦 写 次 数 的 增加 ， 开 始 线性 递减 ， 递 减速 度 按照 擦 写 次 数 从 0 到 最 大 的 比 


WHEN FAILED RAW VALUE 
= 0 




















414422 
21042539 


，CPU 消 耗 型 的 虚拟 机 使 用 





























在 虚拟 化 工作 中 ， 笔 者 经 常 使 用 CGroups 限 制 虚拟 机 的 MO 资源 ， 其 次 是 绑 定 CPU， 本 章 还 会 介绍 通过 Linux TC、Libvirt、iptables 限 制 虚拟 机 网 络 流量 的 方法 。 




















本 章 先 介绍 CGroups 的 一 些 概念 ，6.4~6.6 节 重点 介绍 如 何 限制 CPU、 网 络 、 磁 盘 |/O， 内 存 的 限制 在 第 3 章 已 经 介绍 过 了 ， 本 章 就 不 介绍 了 。 另 外 ， 本 章 中 用 到 的 压力 测试 工 


fio 等 在 第 15 章 有 详细 的 介绍 。 


6.1 ”哪些 场景 要 做 虚拟 机 的 资源 限制 





























前 还 是 预览 技术 ; DM-cache 对 内 核 版 本 


Netperf, lOmeter, 

















一 般 在 生产 环境 中 都 要 做 虚拟 机 的 资源 限制 ， 因 为 在 生产 环境 中 不 希望 因为 某 种 原因 造成 一 台 虚 拟 机 的 消耗 过 高 ， 而 其 他 虚拟 机 没有 资源 使 用 被 饿 死 的 情况 。 尤 其 是 当 一 台 宿 主机 上 有 好 几 个 业务 的 虚 
拟 机 的 时 候 ， 配 置 虚拟 机 的 资源 限制 就 非常 必要 。 配 置 虚拟 机 的 资源 限制 ， 还 要 考虑 到 业务 突 发 的 情况 ， 需 要 预 留 正常 业务 需求 的 空间 ， 否 则 对 业务 造成 影响 就 得 不 偿 失 了 。 





























KVM 虚 拟 机 的 资源 限制 主要 是 通过 CGroups 去 配置 ，Libvirt 在 CGroups 上 包 了 一 层 ， 也 可 以 通过 修改 xml 文 件 去 做 虚拟 机 的 资源 限制 。CGroups 是 Linux 内 核 提 供 的 一 种 可 以 限制 、 记 录 、 隔 离 进程 组 
(Process Groups) 所 使 用 的 物理 资源 (如 CPU、 内 存 、MO 等 ) 的 机 制 。 最 初 由 Google 的 工程 师 提出 ，RedHat 在 RHEL 6/CentOS 6 中 开始 正式 支持 CGroups。 





1.CGroups 运 行 机 制 


CGroups (Control Groups) 是 这 样 一 种 机 制 ， 它 以 分 组 的 形式 对 进程 使 用 系统 资源 的 行为 进行 管理 和 控制 。 也 就 是 说 ， 用 户 通过 CGroups 对 所 有 进程 进行 分 组 ， 再 对 该 分 组 整体 进行 资源 的 分 配 和 控 





制 。 











Linux 系 统 中 的 所 有 进程 都 是 进程 init 的 子 进程 ， 该 进程 在 引导 时 由 内 核 执行 ， 并 启动 其 他 进程 (这 些 进程 会 按 顺序 启动 其 子 进程 ) 。 因 为 所 有 进程 都 归结 到 一 个 父 进程 ， 所 以 Linux 进 程 模式 是 一 个 单一 
层级 结构 ， 或 者 树 结构 。 














另外 ，init 进 程 之 外 的 每 个 Linux 进 程 都 会 继承 其 父 进程 的 环境 和 某 些 属性 。 


CGroups 与 进程 在 以 下 方面 类 似 : 





“ 都 是 分 级 的 。 


“ 子 CGroups 会 继承 其 父 CGroups 的 某 些 属性 。 





根本 不 同 在 于 某 个 系统 中 可 以 同时 存在 不 同 的 分 级 CGroups。 我 们 可 以 把 Linux 进 程 模式 看 成 单一 的 树 型 结构 ， 把 CGroups 模 式 看 成 是 一 个 或 者 更 多 个 独立 的 树 型 结构 ， 如 图 6-1 所 示 。 











图 6-1 CGroups 树 型 结构 


需要 多 个 独立 的 CGroups 分 级 ， 因 为 每 个 分 级 都 会 附加 到 一 个 或 者 多 个 子 系统 中 。 子 系统 代表 单一 资源 ， 比 如 CPU 时 间或 者 内 存 。 














CGroups 是 一 种 对 进程 资源 管理 和 控制 的 统一 框架 ， 它 提供 的 是 一 种 机 制 ， 而 具体 的 策略 (Policy) 是 通过 子 系统 (Subsystem) 来 完成 的 ， 子 系统 是 CGroups 对 进程 组 进行 资源 控制 的 具体 行为 。 机 
制 和 策略 是 Linux 操 作 系 统 中 一 种 经 典 的 设计 思想 ， 所 谓 机 制 就 是 “我 要 提供 哪 种 功能 ”， 而 策略 则 是 “我 要 怎样 来 实现 这 种 功能 ”。RHEL 6 提供 了 9 个 CGroups 子 系统 。CGroups 中 每 个 子 系统 都 代表 一 种 
类 型 的 资源 ， 具 体 如 下 。 





“ cpu 子 系统 : 该 子 系统 为 每 个 进程 组 设置 一 个 使 用 CPU 的 权重 值 ， 以 此 来 管理 进程 对 CPU 的 访问 。 
“ cpuset 子 系统 : 对 于 多 核 CPU， 该 子 系统 可 以 设置 进程 组 只 能 在 指定 的 核 上 运行 ， 并 且 还 可 以 设置 进程 组 在 指定 的 内 存 节点 上 申请 内 存 。 
“ cpuacct 子 系统 : 该 子 系统 只 用 于 生成 当前 进程 组 内 的 进程 对 CPU 的 使 用 报告 。 


“ memory 子 系统 : 该 子 系统 提供 了 以 页 面 为 单位 对 内 存 的 访问 ， 比 如 对 进程 组 设置 内 存 使 用 上 限 等 ， 同 时 可 以 生成 内 存 资源 报告 。 





“blkio 子 系统 : 该 子 系统 用 于 限制 每 个 块 设备 的 输入 /输出 。 与 cpu 子 系统 类 似 ， 该 系统 通过 为 每 个 进程 组 设置 权重 来 控制 块 设备 对 其 的 [/O 〇 时间; 其 次 ， 该 子 系统 也 可 以 限制 进程 组 的 I/O 带 宽 及 IOPS。 
“ devices 子 系统 : 通过 该 子 系统 可 以 限制 进程 组 对 设备 的 访问 ， 即 允许 或 禁止 进程 组 对 某 设备 的 访问 。 

' freezet 子 系统 : 该 子 系统 可 以 使 得 进程 组 中 的 所 有 进程 挂 起 。 

: net-cls 子 系统 : 该 子 系统 提供 对 网 络 带宽 的 访问 限制 ， 比 如 对 发 送 带宽 和 接收 带宽 进程 限制 。 


* NameSpaces: 名 空间 子 系统 。 





2. 子 系统 、 层 级 、 控 制 组 群 和 进程 的 关系 





这 里 简单 说 明 一 下 CGroups 的 一 些 规则 ， 子 系统 、CGroups 


(1) 规则 1 


任何 单一 子 系统 (比如 cpu) 最 多 可 附加 到 一 个 





(2) 规则 2 

















(3) 规则 3 





每 次 在 系统 中 创建 新 层级 时 ， 该 系统 中 的 所 有 进程 都 是 那个 
可 以 在 多 个 CGroups 中 ， 只 要 每 个 CGroups 都 在 不 同 的 
层级 的 不 同 CGroups 中 。 结 果 是 ， 如 果 cpu 和 memory 子 系统 都 附加 到 名 为 cpu_and_mem 的 
CGroups 的 成 员 ， 同 时 也 是 net 中 任意 CGroups 的 成 员 。 








httpd 进 程 所 在 cpu_and_mem 中 的 CGroups 可 将 其 CPU 时 间 限制 为 分 配给 其 他 进程 时 间 的 一 





首次 创建 层级 时 ， 该 系统 中 的 每 个 进程 都 至 少 是 一 个 CGroups 的 成 员 ， 即 root CGroups， 所 以 当 使 


(4) 规则 4 


系统 中 的 任意 进程 都 将 自己 分 支 创建 子 进程 ， 该 子 进 程 








cpu_and_mem 层 级 中 名 为 half_ cpu_1gb_max 的 CGroups 成 员 的 进程 ， 以 及 net 











当 httpd 进 程 将 其 自身 分 成 几 个 分 支 时 ，] 














此 后 ， 父 进程 和 子 进程 就 彼此 完全 独立 ， 
员 关 系 ， 但 之 后 便 可 更 改 或 者 删除 这 些 成 员 的 





6.2 使 用 CGroups 





层级 及 进程 之 间 的 关系 。 











层级 中 。 结 果 是 ，cpu 子 系统 永远 无 法 附加 到 两 个 不 同 的 层级 。 








单一 层级 可 附加 一 个 或 者 多 个 子 系统 。 结 果 是 ，cpu 和 memory 子 系统 (或 者 任意 数目 的 子 系统 ) 都 可 附加 到 








层级 的 默认 CGroups 的 初始 成 员 。 对 于 创建 的 任何 
可 。 只 要 某 个 进程 成 为 同一 


























层级 中 第 二 个 CGroups 的 成 员 ， 就 会 将 其 从 那个 
Inet_cls 子 系统 附加 到 名 为 net 的 



















































































自动 成 为 其 父 进 程 所 在 CGroups 的 成 员 。 然 





层级 中 CGroups trans_rate_30 的 成 员 。 





每 个 子 系统 不 再 








附加 到 另 一 个 层级 即 可 。 





层级 ， 该 系统 中 的 每 个 进程 都 可 以 是 那个 层级 中 唯一 一 个 CGroups 的 成 员 。 单 一 进程 
层级 的 第 一 个 CGroups 中 删除 。 一 个 进程 永远 不 会 同时 位 于 同一 
层级 中 ， 那 么 运行 的 httpd 进 程 可 以 是 cpu_and_mem 中 任意 








量 限制 为 最 多 1024MB。 另 外 ，net 中 的 CGroups 还 可 将 其 传输 速率 限制 为 30MB/s。 


CGroups 时 ， 每 个 系统 进程 至 少 在 一 个 CGroups 中 。 


后 可 根据 需要 将 该 子 进程 移动 到 不 同 的 CGroups 中 ， 但 开始 时 它 总 是 继承 其 父 进程 的 CGroups 环 境 。 




















动 成 为 half cpu 1gb max CGroups 和 trans_rate_30 CGroups 的 成 员 。 它 














更 改 某 个 进程 的 CGroups 响 到 另 一 个 进程 。 同 样 ， 更 改 父 进程 的 CGroups 也 不 


















































父 进 程 所 属 CGroups。 





响 其 子 进程 。 总 之 ， 所 有 子 进程 总 是 可 以 继承 其 父 进程 CGroups 的 成 





使 用 CGroups 最 简单 的 方法 是 安装 libcgroups 软 件 包 ， 该 软件 包 包 含 大 量 与 CGroups 有 关 的 命令 : 
数 。 但 是 ， 使 用 libcgroups 提 供 的 工 





























其 相关 man page。 可 以 使 






































# yum install libcgroups -y 


1.CGroups 服 务 


由 libcgroups 软 件 包 安装 的 cgconfig 服 务 可 提供 创建 层级 的 简便 方法 ， 并 在 层级 中 附加 子 系统 ， 


RHEL 6 默认 不 启动 cgconfig 服 务 。 当 使 用 chkconfig 启 动 该 服务 时 ， 它 读 取 CGroups 配 置 文件 /etc/cgconfig.conf。CGroups 
创建 层级 、 挂 载 所 需 文件 系统 、 创 建 CGroups 及 为 每 个 组 群 设 定 的 子 系统 参数 。 








的 所 有 层级 。 


cgconfig.conf 文 件 包含 两 个 主要 类 型 的 条 目 : mount 和 group。 挂 载 条 目 生 成 并 挂 载 


mount { 
«controller» = «path»;:- 
} 


。 安装 CGroups 的 命令 如 下 : 





























shell 命 令 和 在 任意 系统 中 使 用 的 工具 挂 载 层级 并 设 定 CGroups 参 
































在 那些 层级 中 管理 CGroups。 建 议 使 F 














cgconfig 管 理 层级 和 CGroups。 























ibcgroups 软 件 包 默 认 安装 的 /etc/cgconfig.conf 文 件 为 每 个 子 系统 创建 并 挂 载 独立 














2.CGroups 的 配置 方法 


(1) 创建 挂 载 条 目 





以 下 示例 为 cpu 子 系统 创建 


mount ( 
cpu = /cgroups/cpu; 
} 


对 等 的 shell 命 令 为 : 


# mkdir /cgroups/cpu 


4 mount -t cgroups -o cpu cpu /CGroups/cpu 


效果 如 下 : 


# ls /cgroups/cpu 


cgroups.event control cgroups.procs cpu.cfs period us cpu.cfs quota us cpu. 
rt period us cpu.rt runtime us cpu.shares cpu.stat notify on release release. 


agent tasks 


(2) 创建 组 群 条 目 


以 下 示例 为 sql 守 护 进程 创建 CGroups， 可 为 sqladmin 组 群 中 的 用 户 在 CGroups 中 添加 进程 ， 并 让 root 用 户 修改 子 系统 参数 。 





作为 虚拟 文件 系统 ， 同 时 将 子 系统 附加 到 那些 








此 会 在 不 同 会 话 间 重 新 创建 并 保留 。 根 据 配 置 文件 的 内 容 ，cgconfig 可 


层级 中 附加 子 系统 。 如 果 停止 cgconfig 服 务 (使 用 service cgconfig stop 命 令 ) ， 则 会 卸载 它 挂 载 








层级 中 。 挂 载 条 目 使 用 以 下 语法 定义 : 











group daemons/sql { 
perm ( 

task { 

uid - root; 

gid = sqladm in; 


) admin ( 
uid - root; 
gid = root; 
} 

} cpu { 


cpu.shares = 100; 





对 等 的 shell 命 令 为 : 





^4 mkdir -p /CGroups/cpu/daemons/sql 

^4 chown root:root /CGroups/cpu/daemons/sql /* 

^4 chown root:sqladmin /CGroups/cpu/daemons/sql/tasks 
^4 echo 100 > /CGroups/cpu/daemons/sq1/cpu.shares 





必须 重启 cgconfig 服 务 方 可 使 /etc/cgconfig.conf 中 的 更 改 生效 。 








#service cgconfig restart 








(3) 创建 层级 并 附加 子 系统 











创建 层级 并 在 其 中 附加 子 系 统 ， 需 要 以 root 编 辑 /etc/cgconfig.conf 文 件 的 mount 部 分 。mount 部 分 的 条 目 有 以 下 格式 : 








subsystem = /CGroups/hierarchy; 











下 一 次 启动 cgconfig 时 ， 它 会 创建 








屋 级 并 为 其 附加 子 系统 。 


以 创建 名 为 cpu_and_mem 的 层级 为 例 ， 并 附加 cpu、cpuset 和 memory 子 系统 。 





mount ( 

cpuset-/cgroups/cpu and mem; 
cpu-/cgroups/cpu and mem; 
memory-/cgroups/cpu and mem; 
} 





对 等 的 shell 命 令 为 : 





# mkdir /cgroups/cpu and mem 


# mount -t cgroups -o cpuset,cpu,memory cpu and mem /cgroups/cpu and mem 

















可 以 使 用 ssubsys 命 令 列 出 系统 中 的 所 有 层级 、 可 用 子 系统 及 其 当前 挂 载 点 。 














# lssubsys -am 
Ns 


cpuacct 
devices 
freezer 
net cls 
blkio 

perf event 
net prio 


cpuset,cpu,memory /CGroups/cpu and mem 





系统 。 


这 里 创建 了 /cgroupscpu_and_mem 
应 的 挂 载 点 。 








(4) 在 现 有 层级 中 附加 、 删 除 子 系统 























要 在 现 有 层级 中 添加 子 系统 、 从 现 有 层级 中 取消 层级 或 者 将 其 移动 到 不 同 的 层级 中 ， 需 




















要 在 现 有 层级 中 取消 或 修改 附加 子 系统 ， 只 需要 重新 挂 载 该 层级 即 可 。 


lssubsys 命 令 显示 在 cpu_and_mem 层 级 中 附加 了 cpu、cpuset 和 memory 子 系统 。 




















以 root 编 辑 /etc/cgconfig.conf 文 件 的 mount 部 分 。 当 cgconfig 下 次 启动 时 ， 它 会 根据 指定 的 











层级 ， 并 将 子 系统 cpu、cpuset 和 memory 附 加 到 了 该 层级 中 ， 且 还 没有 在 任何 层级 中 附加 子 系统 net_cls、ns、cpuacct、devices、freezer 和 blkio， 因 为 缺少 相 








层级 识别 那些 子 





# 1ssubsys -am 
ns 

cpuacct 
devices 
freezer 

net cls 

blkio 

perf event 
net prio 


cpuset, cpu,memory /CGroups/cpu and mem 




















使 用 remount 选 项 重新 挂 载 cpu_and_mem 层 级 ， 并 在 子 系统 列表 中 包含 cpuacct: 








# mount -t CGroups -o remount, cpuset, cpu,memory, cpuacct cpu and mem / 


CGroups/cpu and mem 





lssubsys 命 令 显 示 子 系统 cpuacct 已 经 附加 到 cpu_and_mem 层 级 中 。 





[rootütest ~]# lssubsys -am 
ns 

devices 

freezer 

net cls 

blkio 

perf event 

net prio 


cpuset,cpu, cpu acct,memory /CGroups/cpu and mem 


























同样 ， 也 可 以 重新 挂 载 该 层级 并 使 用 -o 选 项 忽略 子 系统 名 称 。 例 如 ， 要 将 cpuacct 子 系统 从 /cgroups/cpu_and_mem 层 级 中 取消 ， 只 要 重新 挂 载 并 忽略 cpuacct 即 可 。 














# mount -t CGroups -o remount,cpuset,cpu,memory cpu and mem /CGroups/cpu and mem 














使 用 umount 命 令 即 可 印 载 CGroups 中 的 层级 。 











# umount /CGroups/cpu and mem/ 
# lssubsys -am 
cpuset 

ns 

cpu 

cpuacct 
memory 

devices 
freezer 

net cls 

blkio 

perf event 

net prio 


























如 果 该 层级 目前 为 空 〈 即 它 只 包含 root CGroups) ， 则 在 卸载 它 时 会 取消 激活 该 层级 。 如 果 该 层级 包含 任意 其 他 CGroups， 则 该 层级 在 内 核 中 仍 保持 活跃 ， 即 使 不 再 挂 载 它 也 是 如 此 。 























出 除 层级 ， 请 确定 在 全 载 该 层级 前 删除 所 有 子 CGroups; 或 者 使 用 cgclear 命 令 ， 它 可 在 层级 非 空 时 取消 激活 层级 。 





3. 创 建 、 删 除 与 卸载 控制 组 群 














使 用 cgcreate 命 令 可 以 创建 CGroups 控 制 组 群 ， 通 过 man cgcreate 可 以 看 到 这 样 一 句 话 : The command creates new CGroups (s) defined by the options-g， 说 得 很 清楚 了 。 


cgcreate 的 语法 为 : 





cgcreate -t uid:gid -a uid:gid -g subsystems:path 








其 中 各 选项 含义 如 下 。 
t (可 选 ) : 指定 用 户 UID 和 组 GID 以 便 让 这 个 CGroups 拥 有 对 tasks 文 件 的 写 权 限 。 这 个 用 户 可 在 该 CGroups 中 添加 进程 。 
“ -a CHE) : 指定 用 户 UID 和 组 GID 以 便 让 这 个 CGroups 拥 有 对 tasks 文 件 的 写 权 限 。 这 个 用 户 可 修改 这 个 CGroups 中 的 进程 对 系统 资源 的 访问 。 


 -g: 指定 CGroups 的 层级 ， 格 式 为 与 那些 层级 关联 的 用 过 号 分 开 的 subsystems 列 表 。 如 果 这 个 列表 中 的 子 系统 在 不 同 的 层级 中 ， 则 要 在 每 个 层级 中 都 创建 该 组 群 。 层 级 列表 后 是 一 个 冒号 ， 然 后 是 与 该 
层级 有 关 的 子 组 群 path。 不 要 在 该 path 中 包含 层级 挂 载 点 。 

















例如 ,目录 /CGroups/cpu_and_mem/lab1/ 中 的 CGroups 称 为 lab1 一 一 其 路 径 已 唯一 确定 ， 因 为 对 于 给 定 的 子 系统 最 多 有 一 个 层级 。 还 请 注意 该 组 群 可 由 创建 该 CGroups 的 现 有 层级 中 的 所 有 子 系统 
控制 ， 即 使 没有 在 cgcreate 命 令 中 指定 这 些 子 系统 。 因 为 同一 层级 中 的 所 有 CGroups 有 相同 的 控制 器 ， 该 子 组 群 与 其 父 CGroups 有 相同 的 控制 器 。 
































cgcreate 用 法 : 


# cat /etc/cgconfig.conf 


mount { 
cpuset = /cgroups/cpuset; 
cpu = /cgroups/cpu and mem; 
cpuacct = /cgroups/cpuacct; 
memory = /cgroups/cpu and mem; 
devices = /cgroups/devices; 
freezer = /cogroups/freezer; 
net cls - /cgroups/net cls; 
blkio = /cgroups/blkio; 


l 
# cgcreate -g cpu,memory:/test-subgroup 





这 里 创建 了 名 为 test-subgroup 的 组 群 ， 位 于 cpu_and_mem 层 级 ， 另 外 cpu 和 memory 子 系统 又 附加 到 了 cpu_and_mem 的 层级 中 ， 所 以 cpu_and_mem 层 级 中 的 test-subgroup 组 群 由 cpu 和 memory 
子 系统 控制 ， 即 使 在 cgcreate 命 令 中 没有 指定 它 也 是 如 此 。 











使 用 cgdelete 命 令 可 以 删除 CGroups 控 制 组 群 ， 其 语法 与 cgcreate 类 似 。 运 行 cgdelete subsystems: path， 其 中 : 





* subsystems 是 用 过 号 分 隔 开 的 子 系统 列表 。 





path 是 到 与 该 层级 相对 root 的 CGroups 的 路 径 。 





# cgdelete -r cpu,memory:/test-subgroup 





使 用 不 带 任何 参数 的 cgclear 命 令 可 以 清除 整个 CGroups 文 件 系统 ， 并 将 该 CGroups 中 的 所 有 进程 重新 分 配 到 该 层级 的 root 节 点 中 ; 删除 所 有 CGroups; 从 该 系统 中 印 载 这 个 文件 系统 ; 这 样 就 破坏 了 
所 有 之 前 挂 载 的 层级 。 最 后 ， 实 际 上 是 删除 了 挂 载 该 CGroups 文 件 系统 的 目录 。 




















4 lssubsys -am // 列 出 所 有 可 用 子 系统 及 其 当前 挂 载 点 
ns 

perf event 

net prio 

cpuset /CGroups/cpuset 
cpu /CGroups/cpu 

cpuacct /CGroups/cpuacct 
memory /CGroups/memory 
devices /CGroups/devices 
freezer /CGroups/freezer 
net cls /CGroups/net cls 
blkio /CGroups/blkio 


# 11 /CGroups/cpu/test-subgroup/ // test-subgroup 组 群 
total 0 

--w--w---- 1 root root 0 Dec 21 13:52 CGroups.event control 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 CGroups.procs 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 cpu.cfs period us 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 cpu.cfs quota us 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 cpu.rt period us 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 cpu.rt runtime us 
-rw-rw-r-- 1 root root 0 Dec 21 13:52 cpu.shares T 
-r--r--r-- l root root 0 Dec 21 13:52 cpu.stat 

-rw-rw-r-- 1 root root 0 Dec 21 13:52 notify on release 
-rw-rw-r-- 1 root root 0 Dec 21 13:53 tasks `~ 

# cgclear // 运行 Cgclear 


# 11 /CGroups/cpu/test-subgroup/ // test-subgroup 组 群 已 经 被 清除 
ls: cannot access /CGroups/cpu/test-subgroup/: No such file or directory 
[root@test ~]# lssubsys -am // 可 以 看 到 所 有 的 子 系统 已 经 被 卸载 


cpuset 
ns 

cpu 
cpuacct 
memory 
devices 
freezer 
net cls 
blkio 
perf event 
net prio 





4. 设 置 参数 




















运行 cgset 命 令 可 以 设置 子 系统 参数 。 例 如 ， 如 果 有 /cgroups/cpuset/test-subgroup 组 群 ， 则 可 以 使 用 如 下 命令 指定 这 个 组 群 可 使 用 的 CPU: 





# cgset -r cpuset.cpus-0-1 test-subgroup 
# cat /CGroups/cpuset/test-subgroup/cpuset.cpus 
0-1 











上 面 的 命令 表示 /cgroups/cpuset/test-subgroup 组 群 只 能 使 用 CPU 0 和 CPU 1， 此 时 指定 虚拟 机 运行 在 此 组 群 中 ， 则 这 人 台 虚 拟 机 只 能 使 用 CPU 0 和 CPU 1, 








cgset 的 语法 为 : 





cgset -r parameter-value path to CGroups 








其 中 各 选项 含义 如 下 。 
:Parameter 是 要 设 定 的 参数 ， 该 参数 与 给 定 CGroups 的 目录 中 的 文件 对 应 。 
“value 是 为 参数 设 定 的 值 。 


“ path_to_CGroups 是 到 相对 该 层级 root 的 CGroups 路 径 。 例 如 ， 如 果 设 定 root 组 群 的 参数 (如 有 /CGroups/cpuacct/ 文 件 ) ， 请 运行 : 





# cgset-r cpuacct.usage=0 / 





另外 ， 因 为 .与 root 组 群 相 关 ( 即 root 组 群 本 身 ) ， 还 可 运行 : 








# cgset -r cpuacct.usage=0 . 











还 可 以 使 用 cgset 命 令 将 一 个 CGroups 组 群 中 已 经 设置 好 的 参数 复制 到 另 一 个 CGroups 的 组 群 中 ， 这 样 就 可 以 省 去 不 必要 的 重复 步骤 ， 例 如 : 

















# cgcreate -g cpuset:/test-subgroup 

# cgcreate -g cpuset:/test-subgroupl 

# cgset -r cpuset.cpus=0-1 test-subgroup // 不 能 大 于 CPU 物理 核 数 ， 假 如 CPU 
物理 核 数 为 24， 如 果 这 里 设置 cpuset .cpus=0-31， 那 么 在 组 群 中 也 只 能 看 到 0-23 

# cat /CGroups/cpuset/test-subgroup/cpuset.cpus 

0-1 

4 cat /CGroups/cpuset/test-subgroupl/cpuset.cpus // 此 时 cpuset.cpus 没 有 参数 

# cgset --copy-from test-subgroup test-subgroupl 

# cat /CGroups/cpuset/test-subgroupl/cpuset.cpus 

0-1 // 可 以 看 到 test-subgroup 中 的 参数 已 经 复制 到 了 test-subgroupl 中 














要 直接 在 CGroups 中 设置 参数 ， 还 可 以 使 用 echo 命 令 将 参数 值 插入 相关 子 系统 的 文件 中 。 例 如 ， 将 test-subgroup1 组 群 中 的 cpuset.cpus 文 件 设置 为 0-5， 对 等 的 shell 命 令 为 : 














# cat /cgroups/cpuset/test-subgroupl/cpuset.cpus 

0-1 

# echo 0-5 > /cgroups/cpuset/test-subgroupl/cpuset.cpus 
# cat /cgroups/cpuset/test-subgroupl/cpuset.cpus 

0-5 





5. 将 某 个 进程 移动 到 控制 组 群 中 


可 以 通过 运行 cgclassify 命 令 将 进程 移动 到 指定 的 控制 组 群 中 ， 以 达到 限制 某 些 进程 对 系统 资源 的 调度 。 例 如 现在 要 将 httpd 和 mysql 进 程 移动 到 test-subgroup 组 群 中 ， 并 限制 这 两 个 进程 只 能 运行 在 
CPU 0 和 CPU 1 上 。 





# cgcreate -g cpu,memory:/test-subgroup 
# cgset -r cpuset.cpus-0-1 test-subgroup 
# cat /cgroups/cpuset/test-subgroup/cpuset.cpus 


0-1 

# ps -ef |grep httpd 

root 11002 1 0 18:38 ? 00:00:00 /usr/sbin/httpd 

# ps -ef |grep mysql 

root 8699 1 0 18:18 ? 00:00:00 /bin/sh /usr/bin/mysqld safe -- 


datadir-/var/lib/mysql --socket-/var/lib/mysql/mysql.sock --pid-file-/var/run/ 
mysqld/mysqld.pid --basedir-/usr --user-mysql 

# cgclassify -g cpu,memory:test-subgroup 11002 8699 

# cat /CGroups/cpu/test-subgroup/tasks 

8699 

11002 

[root@test ~]# cat /CGroups/memory/test-subgroup/tasks 

8699 

11002 





cgclassify 的 语法 为 : 





cgclassify -g subsystems:path to CGroups pidlist 








其 中 各 选项 含义 如 下 。 

* subsystems 是 用 去 号 分 隔 的 子 系统 列表 ， 或 者 * 启 动 与 所 有 可 用 子 系统 关联 的 层级 中 的 进程 。 请 注意 : 如 果 在 多 个 层级 中 有 同名 的 CGroups， 则 -g 选 项 会 将 该 进程 移动 到 每 个 组 群 中 。 
“ path_to_CGroups 是 到 其 层级 中 的 CGroups 的 路 径 。 

- pidlist 表 示 进 程 PID 列 表 。 


还 可 以 在 pidlist 前 面 添加 --sticky 选 项 以 保证 所 有 子 进程 位 于 同一 CGroups 中 。 如 果 没 有 设 定 这 个 选项 且 cgred 守 护 进 程 正在 运行 ， 则 会 根据 /etc/cgrules.conf 中 的 设置 将 子 进程 分 配 到 CGroups 中 ,该 


进程 本 身 则 仍 保留 在 启动 它 的 CGroups 中 。 


对 等 的 shell 命 令 为 : 


echo 8699 > /cgroups/memory/test-subgroup/tasks 
echo 11002 » /cgroups/memory/test-subgroup/tasks 
echo 8699 » /cgroups/cpu/test-subgroup/tasks 
echo 11002 > /cgroups/cpu/test-subgroup/tasks 


3E GE 














某 些 糟糕 的 进程 可 能 导致 CPU 异常 或 内 存 泄露 而 影响 其 他 进程 的 运行 ， 甚 至 影响 系统 的 稳定 。 使 用 cgclassify 命 令 可 以 实现 进程 间 的 资源 隔离 ， 尽 量 避 免 上 述 情况 的 发 生 。 











6.cgred 守 护 进程 


cgred 是 一 个 守护 进程 ， 它 可 根据 在 /etc/cgrules.conf 文 件 中 设 定 的 参数 将 进程 移动 到 CGroups 中 。 





# cgcreate -g cpu:/test-subgroup 

# vim cuu noni 

apache test-subgroup/ 

// 这 个 条 有 目 指 RETE 为 apache 用 户 的 进程 根据 在 test-subgroup/ 中 指定 的 参数 访问 cpu 子 系统 
# /etc/init.d/cgred restart 

# ps -ef |grep httpd 


root 2966 31708 0 22:26 pts/3 00:00:00 grep httpd 

root 11002 1 0 18:38 00:00:00 /usr/sbin/httpd 
apache 11005 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11006 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11007 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11008 11002 0 18:38 o 00:00:00 /usr/sbin/httpd 
apache 11009 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11010 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11011 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 
apache 11012 11002 0 18:38 ? 00:00:00 /usr/sbin/httpd 


[root@test ~]# cat /cgroups/cpu/test-subgroup/tasks // 可 以 看 到 已 经 生效 
11005 
11006 
11007 
11008 
11009 
11010 
11011 
11012 





/etc/cgrules.conf 文 件 中 的 条 目 可 包括 以 下 额外 符号 。 
“ @: 当 在 user 使 用 前 级 时 ， 代 表 是 一 个 用 户 组 而 不 是 单独 用 户 。 例 如 ，(@admins 是 admins 组 中 的 所 有 用 户 。 
n 代表 “所 有 ”。 例 如 ，subsystem 字 段 中 的 * 代 表 所 有 子 系统 。 
Vo: 代表 与 以 上 行 中 项 目 相同 的 项 目 。 


7. 在 控制 组 群 中 启动 一 个 进程 








有 些 子 系统 拥有 强制 参数 ， 将 进程 移动 到 子 系统 前 必须 设 定 这 些 参数 。 例 如 ， 将 进程 移动 到 使 用 cpuset 子 系统 的 CGroups 前 ， 必 须 为 那个 CGroups 定 义 cpuset.cpus 和 cpuset.mems 参 数 。 





























下 面 将 说 明 命 令 的 相关 语法 ， 但 只 适用 于 本 小 节 为 所 有 控制 器 设 定 了 相关 强制 参数 的 系统 。 如 果 还 没有 配置 相关 控制 器 ， 将 无 法 直接 将 本 小 节 中 的 命令 示例 用 于 您 的 系统 。 

















运行 cgexec 命 令 在 CGroups 中 启动 进程 。 





cgexec -g cpu:test-subgroup lynx http://www.aliyun.com 


这 个 命令 启动 了 test-subgroup 控 制 组 群 中 的 lynx 网 页 浏览 器 ， 目 的 是 限制 cpu 子 系统 为 那个 组 群 造成 的 负担 。 


cgexeci 语 法 为 : 





cgexec -g subsystems:path to CGroups command arguments 








其 中 : 
“ subsystems 是 用 过 号 分 隔 的 子 系统 列表 或 者 * 启 动 与 所 有 可 用 子 系统 关联 的 层级 中 的 进程 。 


- path_to_CGroups 是 到 与 该 层级 相关 的 控制 组 群 的 路 径 。 


- arguments 是 运行 该 命令 时 所 需 的 参数 。 




















cgexec 命 令 类 似 于 cgclassify， 也 有 --sticky 选 项 ， 用 于 将 所 有 子 进程 都 放 在 同一 个 CGroups 中 。 如 果 没 有 设 定 这 个 选项 ， 且 cgred 守 护 进 程 正在 运行 ， 则 将 根据 在 /etc/cgrules.conf 中 的 设置 将 子 进程 
分 配 到 CGroups 中 ， 而 该 进程 本 身 仍 保留 在 启动 它 的 CGroups 中 。 


对 等 的 shell 命 令 为 : 











# echo $$ > /cgroups/cpu/test-subgroup/tasks 

















jE EE jBUlynxm, XZU&shellrPf5fEFSBIABBE/cgroups/cpu/test-subgrouprh, ELARI TRIES TEES SC ER EUASETUSRI [0 : 


# sh -c "echo \$$ > /CGroups/cpu/test-subgroup/tasks && lynx" 





可 在 某 个 CGroups 中 启动 某 些 服务 。 在 CGroups 中 启动 的 服务 必须 : 





- 使 用 /etc/sysconfig/servicename 文 件 。 


- 使 用 /etcyinit.d/functions 的 daemon () 功能 启动 该 服务 。 























要 在 CGroups 中 启动 某 个 服务 ， 需 要 在 /etc/sysconfig 中 编辑 该 服务 对 应 的 文件 ， 使 该 文件 包含 指定 的 格式 : CGROUPS_DAEMON= "subsystem: control group"， 其 中 subsystem 是 与 具体 层级 关 





联 的 子 进程 ，control_group 是 那个 层级 中 的 CGroups。 














例如 ， 当 启动 Libvirtd 服 务 时 ， 会 自动 在 各 子 系统 下 创建 Libvirt 组 群 ， 主 要 是 因为 Libvirt 会 自动 检查 CGroups 的 位 置 并 自动 挂 载 ， 在 /etc/libvirt/qemu.conf 本 置 文件 中 有 具体 说 明 。 






































What cgroups controllers to make use of with QEMU guests 


- 'cpu' - use for schedular tunables 

- 'devices' - use for device whitelisting 

- 'memory' - use for memory tunables 

- 'blkio' - use for block devices I/O tunables 
- 'cpuset' - use for CPUs and memory nodes 

- 'cpuacct' - use for CPUs statistics. 


NB, even if configured here, they won't be used unless 
the administrator has mounted CGroupss, e.g.: 


mkdir /dev/CGroups 
mount -t CGroups -o devices, cpu,memory,blkio,cpuset none /dev/CGroups 


They can be mounted anywhere, and different controllers 
can be mounted in different locations. libvirt will detect 
where they are located. 


CGroups controllers = [ "cpu", "devices", "memory", "blkio", "cpuset", "cpuacct" ] 
This is the basic set of devices allowed / required by 
all virtual machines. 


As well as this, any configured block backed disks, 
all sound device, and all PTY devices are allowed. 


This will only need setting if newer QEMU suddenly 
wants some device we don't already know about. 


CGroups device acl = [ 
"/dev/null", "/dev/full", "/dev/zero", 
"/dev/random", "/dev/urandom", 
"/dev/ptmx", "/dev/kvm", "/dev/kqgemu", 
"/dev/rtc", "/dev/hpet" 


HE SE SE JE dEdb JE JE SE db db de db de de de de dE db dE dE db dE db de dE dE dE dE db dE dE db dE dE 








所 以 当 启 动 Libvirtd 服 务 时 ， 会 将 每 个 子 系统 自动 挂 载 到 Libvirt 层 级 中 ， 例 如 : 





[rootélocalhost ~]# 11 /cgroups/blkio/libvirt // 因为 在 重启 cgconfig 服 务 后 并 没有 重启 
// Libvirtd 服 务 ， 所 以 在 blkio 子 系统 中 并 没有 Libvirtd 组 群 

ls: cannot access /cgroups/blkio/libvirt: No such file or directory 

[root(localhost ~]# /etc/init.d/libvirtd restart 


Stopping libvirtd daemon: [ OK ] 
Starting libvirtd daemon: [ OK ] 
[rootélocalhost ~]# 11 /cgroups/blkio/libvirt // 重启 Libvirtd 服 务 后 可 以 看 到 已 经 自动 


// 挂 载 Libvirtd 组 群 


total 0 


root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 


blkio.io merged 

blkio.io queued 

blkio.io service bytes 

blkio.io serviced 

blkio.io service time 

blkio.io wait time 

blkio.reset stats 
blkio.sectors 

blkio.throttle.io service bytes 
blkio.throttle.io serviced 
blkio.throttle.read bps device 
blkio.throttle.read iops device 
blkio.throttle.write bps device 
blkio.throttle.write iops device 
blkio.time 

blkio.weight 

blkio.weight device 
CGroups.event control 
CGroups.procs 





drwxr-xr-x. 





PNPNPPPPPPPPPPPPPPPPPPP 
OOOOO0o0o00000000000o0o0oooo 





root root lxc 
-EW . root root notify on release 
drwxr-xr-x. root root qemu 
-rw-r--r--. root root tasks 


























需要 注意 的 是 ， 





启 完 cgconfig 服 务 后 必须 在 重新 启动 Libvirtd 服 务 (虚拟 机 也 要 重新 启动 ) 。 





8.CGroups (组 群 ) 相关 属性 





1) 查找 某 个 进程 所 属 CGroups。 





[root@localhost ~]# ps -O cgroups 

PID CGROUPS S TIY TIME COMMAND 
14266 blkio:/;net cls:/;freezer:/;devices:/;cpuacct:/;memory, cpu: / ; cpuset: / 
S pts/2 00:00:00 /bin/bash 
22610 blkio:/;net cls:/;freezer:/;devices:/;cpuacct:/;memory, cpu: /;cpuset:/ 
R pts/2 00:00:00 ps -O cgroups 





或 者 : 





# cat /proc/25753/cgroups 
255:blkio:/ 

254:net cls:/ 
253:freezer:/ 








2) 查找 子 系统 。 





# cat /proc/cgroupss 





或 者 查找 具体 子 系统 的 挂 载 点 。 





# lssubsys -m cpu 








3) 查找 层级 。 





列 出 或 者 浏览 包含 层级 组 群 的 目录 中 的 内 容 。 





# tree /cgroups/ 





4) 查找 控制 组 群 。 








要 查找 某 个 系统 的 CGroups， 可 以 使 用 lscgroups 命 令 。 











4 lscgroups 
cpuset:/ 

cpu:/ 

cpu: /test-subgroup 
cpuacct:/ 

memory:/ 

memory: /test-subgroup 
devices:/ 
freezer:/ 

net cls:/ 

blkio:/ 





5) 显示 控制 组 群 的 参数 。 








可 以 使 用 cgget 命 令 来 显示 。 











cgget -r parameter list of CGroupss 

















其 中 parameter 是 包含 子 系统 值 的 文件 ，list of CGroupss 是 用 空格 分 隔 的 CGroups 列 表 。 例 如 : 








# cgget -r cpuset.cpus / 
7s 


cpuset.cpus: 0-15 





如 果 不 知道 参数 名 称 ， 请 使 用 以 下 命令 : 








# cgget -g cpuset / 
f: 


cpuset.memory pressure enabled: 0 
cpuset.memory spread slab: 0 
cpuset.memory spread page: 0 
cpuset.memory pressure: 0 
cpuset.memory migrate: 0 
cpuset.sched relax domain level: -1 
cpuset.sched load balance: 1 
cpuset.mem hardwall: 0 
cpuset.mem exclusive: 1 
cpuset.cpu exclusive: 1 
cpuset.mems: 0-1 

cpuset.cpus: 0-15 





63 ” KVM 虚拟 机 CPU 资 源 限制 配置 


在 QEMU/KVM 中 ，QEMU 提 供 对 CPU 的 模拟 ， 展 现 给 虚拟 机 一 定 的 CPU 数目 和 CPU 的 特性 。 每 个 虚拟 机 都 是 一 个 标准 的 Linux 进 程 《QEMU 进 程 ) ， 每 一 个 VCPU 在 宿主 机 中 是 QEMU 进 程 派生 的 一 
个 普通 线程 。 因 此 ， 对 虚拟 机 CPU 资源 的 限制 最 后 归结 到 对 该 线程 的 限制 。 








1. 虚 拟 机 CPU 绑 定 


(1) CGroups 方 式 














开启 一 台 测 试用 虚拟 机 cgroups-test。 











# ps -eLo pid,lwp,psr,args|grep qemu-kvm | grep -v grep |grep cgroups-test 
5175 5175 9 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 
5175 5200 5 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 





x 


0 上 所 示 ， 虚 拟 机 cgroups-test 在 宿主 机 中 有 两 个 线程 ， 其 中 线程 5175 代 表 整 个 虚拟 机 ， 线 程 5200 是 VCPU 的 线程 。 











复 运行 数 遍 上 述 命令 ， 会 发 现 第 三 列 即 当前 线程 运行 在 那 台 宿主 机 CPU 核 是 变化 的 。 接 下 来 将 通过 操作 把 虚拟 机 绑 定 到 第 0 个 核 上 。 


中 





# echo "0" > /cgroups/cpuset/libvirt/qemu/cgroups-test/emulator/cpuset.cpus 
# echo "5175" > /cgroups/cpuset/libvirt/qemu/cgroups-test/emulator/tasks 
# echo "5200" > /cgroups/cpuset/libvirt/qemu/cgroups-test/emulator/tasks 
# ps -eLo pid,lwp,psr,args|grep qemu-kvm | grep -v grep |grep CGroups-test 
5175 5175 0 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 
5175 5200 0 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 





虚拟 机 已 经 运行 在 了 CPU 0 上 ， 而 且 不 会 被 调度 到 其 他 核 上 。 





taskset 方 式 ，-p，--pid 操 作 已 存在 的 PID，-c，--cpu-list 通 过 列表 显示 方式 设置 CPU。 





# ps -eLo pid,lwp,psr,args|grep qemu-kvm | grep -v grep |grep cgroups-test 
31803 31803 8 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 
31803 31828 1 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 

# taskset -cp 0 31803 

# taskset -cp 0 31828 

# ps -eLo pid,lwp,psr,args|grep qemu-kvm | grep -v grep |grep cgroups-test 
31803 31803 0 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 
31803 31828 0 /usr/libexec/qemu-kvm -name cgroups-test -S -M rhel6.5.0 





另外 还 可 以 通过 直接 修改 .xm 文件 的 方式 来 绑 定 VCPU， 例 如 : 








<vcpu placement-'static' cpuset-'0'»1«/vcpu» 





(2) Libvirt 方 式 




















Libvirt 实 际 上 也 是 通过 CGroups 去 做 限制 ， 但 是 可 以 通过 virsh 命 令 和 虚拟 机 的 .xm 配置 文件 进行 配置 ， 配 置 方法 已 经 在 第 3 章 进 行 了 详细 介绍 。 














2.CPU 时 间 的 分 配 


上 面 讨论 的 是 给 进程 分 配 不 同 的 CPU core， 当 多 个 进程 运行 在 同一 个 CPU core 上 时 ， 也 可 以 限制 每 个 进程 得 到 的 CPU 时 间 的 比例 。 








开启 两 台 虚拟 机 ， 用 上 一 小 节 的 方法 让 两 台 虚拟 机 都 运行 在 CPU 0 上 。 




















编写 一 个 消耗 CPU 的 脚本 cpu.sh， 用 于 验证 CPU 时 间 的 分 配 比例 。 











#! /bin/sh 

# filename killcpu.sh 

if [ $$ != 1 ] ; then 
echo "USAGE: $0 «cpus»" 
exit 1; 

fi 

for i in 'seq $1' 


e 


i-0; 
while true 


i=i+1; 

done" | /bin/sh & 
pid array[$i]=$! ; 

done 

for i in "${pid array[@]}"; do 
echo 'kill ' $i ';'; 





然后 在 两 台 虚 拟 机 中 都 运行 上 述 脚本 。 





# bash cpu.sh 1 
# bash cpu.sh 1 








此 时 ， 在 宿主 机 上 观察 两 台 虚 拟 机 占用 的 CPU 时 间 几 乎 是 相同 的 。 














PID USER PR NI VIRT RES SHR S $CPU $MEM TIME- COMMAND 
10983 qemu 20 0 2396m 348m 4548 S 50.0 0.7 3:42.04 qemu-kvm 
16603 qemu 20 0 2387m 344m 4548 R 49.7 0.7 2:43.32 gemu-kvm 





修改 两 台 虚 拟 机 的 .xm 配置 文件 。 


1) cgroups-test 配 置 文件 加 入 如 下 内 容 : 





<cputune> 
<shares>2048</shares> 
</cputune> 





2) cgroups-test2 配 置 文件 加 入 如 下 内 容 : 





<cputune> 
<shares>512</shares> 
</cputune> 


3) 继续 运行 cpu.sh 消 耗 CPU， 此 时 宿主 机 上 的 情况 如 下 ， 接 近 4: 1. 





PID USER PR NI VIRT RES SHR S $CPU $MEM TIME- COMMAND 
17012 qemu 20 0 2410m 310m 4548 S 79.3 0.6 10:03.00 gemu-kvm 
17052 qemu 20 0 2396m 252m 4548 S 19.3 0.5 2:50.14 qemu-kvm 





可 以 通过 设置 cpu.shares 来 达到 同样 的 目的 。 例 如 ， 在 两 个 CGroups 中 都 将 cpu.shares 设 定 为 1 的 进程 将 有 相同 的 CPU 时 间 ， 但 在 CGroups 中 将 cpu.shares 设 定 为 2 的 进程 可 使 用 的 CPU 时 间 是 在 
CGroups 中 将 cpu.shares 设 定 为 1 的 进程 可 使 用 的 CPU 时 间 的 两 倍 。 




















6.4 KVM 虚拟 机 网 络 资源 限制 


























CGroups 对 网 络 方面 的 限制 没有 CPU 和 磁盘 那么 方便 ， 限 制 网 络 流量 一 般 不 使 用 CGroups， 目 前 笔者 在 生产 环境 中 主要 使 用 以 下 3 种 限制 方案 : 








“ 通过 TC 限制 虚拟 机 流量 ，TC 是 内 核 中 一 套 限制 网 络 流量 的 机 制 。 


e 


) 


“ d i3 LibvirtlR s] Æ ipui 


D: 


“ 通过 iptables 限 制 虚拟 机 流量 。 


























为 了 对 比 网 络 流量 限制 效果 ， 先 介绍 一 下 不 做 流量 限制 的 网 络 测试 情况 ， 笔 者 的 演示 环境 中 宿主 机 是 干 兆 网 卡 ， 在 不 做 限制 的 情况 下 ， 利 用 Netperf 测 试 虚拟 机 的 结果 如 下 : 








4 netperf -t TCP STREAM -H 10.0.0.161 -p 12865 -1 60 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.69.68.156 
(10.69.68.156) port 0 AF INET T 

Recv Send Send 

Socket Socket Message Elapsed 


Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.01 947.97 





可 以 看 到 ， 基 本 可 以 达到 线 速 。 








Netperf 参 数 介绍 (Netperf 使 用 在 第 15 章 有 详细 介绍 ) 。 

















- -ttestname: 指定 进行 的 测试 类 型 ， 包 括 TCP_STREAM、UDP_STREAM、TCP_RR、TCP_CRR 和 UDP_RR。 
:-H host: 指定 远 端 运行 netserver 的 server IP。 


“ -P port: 指定 netserver 的 端口 号 。 


testen: 指定 测试 的 时 间 长 度 ( 秒 ) 。 


1. 使 用 TC (Traffic Control) 限制 虚拟 机 带宽 























TC (Traffic Control) 是 Linux 进 行 流量 控制 的 工具 ， 可 以 控制 网 络 接口 发 送 数据 的 速率 。 每 个 网 络 接口 都 有 一 个 队列 ， 上 
队列 ， 从 而 改变 数据 包 发 送 的 速率 和 优先 级 ， 达 到 流量 控制 的 目的 。 




















Linux 内 核 中 支持 的 队列 如 下 。 

"TBF (Token Bucket Flow) : 令 牌 桶 过 滤器 ， 适 用 于 流量 整形 。 
- Pfifo_fast, Third Band First In First Out Queue 先 进 先 出 队列 。 

| CBQ 队 列 : 分 类 的 队列 ， 用 于 实现 精细 的 QoS 控制 ， 配 置 复杂 。 
: SFQ (Stochastic Fairness Queueing) : 随机 公平 队列 。 


- HTB (Hierarchy Token Bucket) : 分 层 令 牌 桶 ， 用 于 实现 精细 的 QoS 控制 ， 配 置 比 CBQ 简 单 些 。 


Q9. 
TC 控制 的 主要 是 出 口 流量 ， 入 口 流 量 不 能 通过 TC 控制 。 
(1) 通过 TC 限制 网 卡 流量 


1) 通过 TBF 限 制 流出 速度 的 例子 。 











于 管理 和 调 





度 待 发 的 数据 。TC 的 工作 原理 就 是 通过 设置 不 同类 型 的 网 络 接口 





#tc qdisc add dev eth0 root tbf rate 51200kbit latency 50ms minburst 200k burst 200k 








限制 网 卡 eth0 流 出 速度 为 51200kbit/s， 正 确 的 设置 方法 和 minburst 这 个 参数 有 很 大 的 关系 ， 不 同 的 硬件 环境 和 系统 需要 具体 调试 。 


@ 删 除 队 列 的 命令 。 





tc qdisc del dev eth0 root tbf 





@ 修 改 队列 的 命令 。 





tc qdisc change dev eth0 root tbf rate 2200kbit latency 5000ms burst 1540 





@ 查 看 当前 队列 。 





tc -s -d qdisc 1s 





2) 通过 HTB 队 列 ， 针 对 不 同 IP 源 限 速 。 


@ 建 立 一 个 htb 根 队列 。 





tc qdisc add dev eth0 root handle 1: htb 





@ 建 立 一 个 父 类 1 : 1， 速 度 为 100Mbit/s。 





tc class add dev eth0 parent 1: classid 1:1 htb rate 100mbit ceil 100mbit 





@ 建 立 一 个 子 类 1 : 10， 速 度 为 50Mbit/s， 这 里 的 50Mbit/s 包 含 在 1 : 1 的 100Mbit/s 中 。 





tc class add dev eth0 parent 1:1 classid 1:10 htb rate 50mbit ceil 50mbit 





@ 指 定 1 : 10 是 一 个 随机 公平 队列 。 





tc qdisc add dev eth0 parent 1:10 sfq perturb 10 





通过 过 滤器 ， 保 证 1.1.1.1 这 个 1P 通 过 1 : 1 这 个 队列 ， 优 先 级 是 2。 





tc filter add dev eth0 protocol ip parent 1: prio 2 u32 match ip dst 1.1.1.1/32 
flowid 1:1 








通过 过 滤器 ， 保 证 所 有 的 其 他 IP 通 过 1 : 10 这 个 队列 ， 优 先 级 是 50。 





tc filter add dev eth0 protocol ip parent 1: prio 50 u32 match ip dst 0.0.0.0/0 
flowid 1:10 





(2) 通过 TC 限 制 虚拟 机 流量 

通过 TC 的 流量 限制 ， 限 制 虚拟 机 的 流量 ， 分 为 以 下 几 个 步 又: 
1) 建立 队列 。 

2) 建立 分 类 。 


3) 建立 过 滤器 ， 过 滤 虚 拟 机 的 IP。 


4) 绑 定 网 卡 。 


下 面 是 一 个 在 宿主 机 上 限制 网 卡 流量 的 脚本 。 





#!/bin/bash 

DEV=em1 

tc qdisc del dev $DEV root 

tc qdisc add dev $DEV root handle 1: cbq avpkt 1000 bandwidth 1000mbit 

# 创 建 一 个 队列 ， 限 制 带 宽 为 1000M 

tc class add dev $DEV parent 1: classid 1:1 cbq rate 100kbit allot 1500 prio 5 
bounded isolated 

# 创 建 子 队列 ， 带 宽 为 100k 

tc filter add dev $DEV parent 1: protocol ip prio 16 u32 match ip src 10.0.0.161 
flowid 1:1 

# 将 子 队列 绑 定 到 源 IP 为 10.0.0.161 的 过 滤器 上 ， 此 IPB 为 虚拟 机 TP 

tc qdisc add dev $DEV parent 1:1 sfq perturb 10 

# 将 过 滤器 绑 定 到 网 卡 上 








其 中 DEV 是 与 虚拟 机 进行 桥接 的 宿主 机 网 卡 名 。 测 试 结果 如 下 : 








# netperf -t TCP STREAM -H 10.0.0.161 -p 12865 -1 60 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.0.0.161 
(10.0.0.161) port 0 AF INET 

Recv Send Send 

Socket Socket Message Elapsed 





Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 14.00 0.09 

流量 基本 被 限定 到 100KB。 





2. 使 用 Libvirt 限 制 虚拟 机 带宽 











Libvirt 的 虚拟 机 流量 限制 ， 配 置 非常 方便 ， 在 虚拟 机 配置 文件 中 的 网 卡 部 分 加 入 如 下 内 容 : 














<bandwidth> 
<inbound average='100' peak='50' burst='1024'/> 
<outbound average='100' peak='50' burst='1024'/> 
</bandwidth> 














目标 是 限制 进出 带宽 平均 不 超过 100KB/s， 最 高 不 超过 50KB/s， 实 际 结果 和 预想 的 有 出 入 ， 测 试 结果 如 下 。 





1) 流 进 几乎 没有 影响 。 





# netperf -H 10.0.0.161 -1 60 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.0.0.161 () 
port 0 AF INET 

Recv | Send Send 

Socket Socket Message Elapsed 


Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.01 820.58 





2) 流出 是 177.55MB。 





#netperf -H 10.0.0.167 -1 20 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.0.0.167 () 
port 0 AF_INET s 

Recv Send Send 

Socket Socket Message Elapsed 


Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 20.02 177.55 





Libvirt 实 际 也 是 使 用 TC 限 制 虚拟 机 流量 ， 虚 拟 机 配置 生效 的 时 候 ， 通 过 TC 队 列 查看 命令 ， 可 以 看 到 如 下 TC 队 列 : 





tc =s -d qdisc ls 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


qdisc pfifo fast 0: dev virbr0-nic root refcnt 2 bands 3 priomp 1222120 
011111111 

Sent 614 bytes 8 pkt (dropped 0, overlimits 0 requeues 0) 

backlog 0b Op requeues 0 

qdisc htb 1: dev macvtapO root refcnt 2 r2q 10 default 1 direct packets stat 0 
ver 3.17 

Sent 468 bytes 6 pkt (dropped 0, overlimits 0 requeues 0) 

backlog 0b Op requeues 0 

qdisc sfq 2: dev macvtapO0 parent 1:1 limit 127p quantum 1514b depth 127 flows 
128/1024 divisor 1024 perturb 10sec 

Sent 468 bytes 6 pkt (dropped 0, overlimits 0 requeues 0) 

backlog 0b Op requeues 0 

qdisc ingress ffff: dev macvtap0 parent ffff:fffl — 
Sent 0 bytes 0 pkt (dropped 0, overlimits 0 requeues 0) 
backlog 0b Op requeues 0 











因为 TC 只 能 限制 流出 方向 流量 ， 不 能 限制 流入 方向 流量 ， 所 以 通过 Libvirt 限 制 流量 ， 实 际 也 只 能 限制 流出 方向 流量 。 
3. 使 用 iptables 限 制 虚拟 机 的 发 包 率 


(1) 通过 iptables 限 制 虚拟 机 的 流 进 方向 的 发 包 率 








在 宿主 机 上 用 iptables 来 限制 虚拟 机 的 发 包 率 ， 也 是 限制 虚拟 机 流 进 流量 的 一 个 有 效 方案 。 











默认 情况 下 ， 经 过 桥接 的 虚拟 机 网 络 流量 不 受 宿主 机 的 iptables 控 制 ， 需 要 改动 一 个 内 核 参 数 。 





# echo 1 > /proc/sys/net/bridge/bridge-nf-call-iptables 





然后 添加 两 条 iptables 规 则 。 





iptables -A FORWARD -d 10.0.0.161 -m limit --limit 100/sec --limit-burst 100 -j ACCEPT 
# 限 定 每 秒 100 个 数据 包 
iptables -A FORWARD -d 10.0.0.161 -j DROP 





同时 测试 了 一 下 流 进 、 流 出 方向 的 流量 ， 测 试 结果 如 下 。 


1) 流 进 方向 流量 被 限制 得 很 明显 ， 只 有 2.06MB。 





#netperf -H 10.20.102.161 -1 60 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.20.102.161 () 
port 0 AF INET 

Recv Send Send 

Socket Socket Message Elapsed 


Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.01 2.06 








2) 流出 方向 流量 被 限制 得 也 很 明显 ， 是 213.50MB。 





#netperf -H 10.0.0.167 -1 60 
MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.0.0.167 () 
port 0 AF_INET 


Recv Send Send 

Socket Socket Message Elapsed 

Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.23 213.50 





(2) 通过 iptables 限 制 虚拟 机 的 流出 方向 的 发 包 率 





iptables -A FORWARD -s 10.0.0.161 -m limit --limit 100/sec --limit-burst 100 -j ACCEPT 
HIRREN Ho 3E 100 EL 
iptables -A FORWARD -s 10.0.0.161 -j DROP 





测试 结果 如 下 。 


1) 流 进 方向 流量 明显 受到 限制 ， 是 19.31MB。 





netperf -H 10.20.102.161 -1 60 

MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.20.102.161 () 
port 0 AF INET T 

Recv Send Send 

Socket Socket Message Elapsed 


Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.49 19.31 





2) 流出 方向 流量 也 受到 限制 ， 是 1.58MB。 





netperf -H 10.20.102.167 -1 60 
MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 0 AF INET to 10.20.102.167 () 
port 0 AF INET 


Recv Send Send 

Socket Socket Message Elapsed 

Size Size Size Time Throughput 
bytes bytes bytes secs. 10^6bits/sec 
87380 16384 16384 60.63 1.58 





(3) iptables 限 制 流量 结论 
: 通过 iptables 不 能 精确 控制 网 速 ， 只 能 控制 包 的 个 数 ， 具 体 数 对 可 以 用 mtu 乘 包 的 个 数 计算 。 


“ 因为 网 络 协议 是 双向 的 ， 因 此 iptables 限 制 网 络 流量 ， 即 使 配置 的 是 单 向 的 ， 实 际 对 流出 、 流 进 方向 流量 都 有 影响 。 


6.5 ” KVM 虚拟 机 磁盘 资源 限制 


1. 限 制 磁盘 IOPS 





磁盘 限制 是 指定 CGroups 中 某 设备 每 秒 钟 可 以 执行 的 读 / 写 请 求 数 上 限 。 其 格式 为 : 





major:minor operations per second 





比如 : 





echo "253:4 100">blkio.throttle.read iops device 





100 为 虚拟 机 磁盘 的 IOPS，blkio.throttle.read iops_device 限 制 虚拟 机 读 IOPS。 











对 虚拟 机 磁盘 进行 读 压力 测试 ， 同 样 使 用 ometer 进 行 压 测 ， 如 图 6-2 所 示 。 
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图 6-2 ”磁盘 IOPS 限 制 





2. 限 制 磁盘 吞吐 


磁盘 吞吐 限制 主要 通过 以 下 CGroup 参 数 配置 ; 





* blkio.throttle.read_bps_device。 


* blkio.throttle.wtite_bps_device。 





指定 CGroups 中 某 设备 每 秒 钟 读 / 写 数据 的 字 节 上 限 。 其 格式 为 : 


major:minor bytes per second 





比如 : 





# echo "253:2 10485760" > blkio.throttle.write bps device 
10485760 指 限制 虚拟 机 香 吐 为 10OMB，blkio.throttle.write_bps_device 限 制 写 的 吞吐 ，253: 2 是 虚拟 机 磁盘 的 设备 号 ， 通 过 如 下 方法 可 获得 : 


# virsh dumpxml CGroups-test |grep file 
«disk type-'file' device-'disk'» 
<source file-'/datapool/CGroups-test'/» 
# ls -l /dev/datavg/datapool 
lrwxrwxrwx 1 root root 7 Dec 25 13:21 /dev/datavg/datapool -> http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text./ . . /dm-2 
# ls -1 /dev/dm-2 
brw-rw---- 1 root disk 253, 2 Dec 25 13:21 /dev/dm-2 





























对 虚拟 机 磁盘 进行 写 压力 测试 (dd、fio、lometer 都 可 以 ， 使 用 方法 在 第 15 章 有 详细 介绍 ) ， 这 里 使 用 lometer 进 行 测试 ， 如 图 6-3 所 示 。 
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图 6-3 ”磁盘 吞吐 限制 





可 以 看 到 虚拟 机 磁盘 写 的 吞吐 最 高 只 能 到 10MB， 达 到 了 预期 效果 。 





通过 CGroups 可 以 很 方便 地 控制 磁盘 IOPS 和 香 吐 ， 在 生产 环境 中 可 以 通过 写 一 些 脚本 来 监控 虚拟 机 磁盘 的 使 用 情况 ， 当 超过 某 个 阔 值 时 自动 使 用 脚本 中 已 经 定义 好 的 IOPS 及 吞吐 的 值 进行 限制 ， 避 免 
为 某 台 虚拟 机 占用 过 高 磁盘 资源 而 影响 其 他 虚拟 机 的 正常 运行 。 





























66 本章 小 结 


资源 限制 在 公有 云 上 是 必需 的 ， 在 当今 的 公有 云 中 几乎 都 在 限制 虚拟 机 的 CPU、 磁 盘 资源 、 网 络 资源 。 























对 于 CPU 资源 的 限制 ， 现 在 通用 的 做 法 是 所 有 虚拟 机 共享 CPU 资源 ， 可 以 达到 节省 成 本 的 目的 ， 一 般 不 会 去 绑 定 ， 当 然 对 于 特定 用 户 或 特定 业务 除外 。 









































磁盘 资源 限制 特别 是 对 于 后 端 使 用 分 布 式 存储 架构 的 公有 云 就 显得 十 分 重要 。 如 果 使 用 本 地 SSD 磁 盘 ， 或 者 使 用 本 地 SATA 磁 盘 (改变 MO 路 径 ， 顺 序 读 / 写 都 落 到 缓存 盘 ， 再 由 缓存 盘 随机 写 到 本 地 盘 ) 
的 架构 ， 提 供 的 性 能 非常 高 ， 可 以 考虑 只 在 必要 的 时 候 去 适当 限制 一 下 就 可 以 了 。 




















网 络 资源 的 限制 往往 和 计 费 相关 ， 因 为 在 公有 云 ， 带 宽 都 是 要 另外 计 费 的 ， 所 以 一 般 的 云 主 机 都 会 进行 网 络 资源 限制 。 





下 一 章 将 为 读者 介绍 物理 机 转 虚 拟 机 的 操作 方法 和 实践 。 





第 7 章 ”物理 机 转 虚 拟 机 实践 


本 章 将 为 读者 详细 介绍 物理 机 转换 成 虚拟 机 (Physical to Virtual, P2V) 的 原理 及 方法 。P2V 有 许多 技巧 和 实际 的 经 验 ， 其 难点 是 物理 机 如 何 加 载 虚拟 化 的 Virtio 驱 动 。 


7.1 ”哪些 应 用 场景 适合 做 物理 机 转 虚 拟 机 


(1) P2V 是 什么 





P2V 即 物理 机 (P) 转 虚 拟 机 (V) ， 要 求 将 物理 机 原封 不 动 地 转换 成 虚拟 机 ， 保 持 文件 系统 、 任 何 文件 都 不 发 生变 化 。 
(2) 为 什么 要 做 P2V， 或 者 P2V 的 价值 是 什么 


P2V 将 物理 机 环境 搬 到 虚拟 机 环境 ， 适 用 于 以 下 场景 : 





< 物理 机 利用 率 非常 低 ， 转 换 成 虚拟 机 可 以 提高 资源 利用 率 。 
“ 物理 机 的 软件 环境 如 果 非 常 复 杂 ， 将 物理 机 转换 成 虚拟 机 ， 不 需要 重新 配置 软件 环境 。 


“ 转换 成 虚拟 机 ， 可 以 在 虚拟 化 层面 做 快照 和 高 可 用 ， 可 提高 系统 的 可 靠 性 。 


7.2”P2V 的 技术 实施 方案 


1.P2V 技 术 方案 分 类 


P2V 的 技术 实施 方案 分 为 两 种 : 静态 方案 和 动态 方案 。 











在 虚拟 机 上 还 原 。KVM 的 virit-P2V、VMware esx 3.5 以 前 都 属于 这 样 的 解决 方案 。 





静态 方案 就 是 将 物理 机 关机 ， 使 用 克隆 软件 克隆 ， 



































动态 方案 就 是 物理 机 处 于 运行 状态 ， 使 用 专用 的 Agent 将 物理 机 文件 在 线 复制 到 虚拟 机 中 。VMware 4.0 以 后 采用 动态 方案 实施 P2V。 











2. 两 种 方案 的 比较 
两 种 方案 的 优 缺 点 和 难点 比较 如 下 。 
(1) 静态 方案 


优点 : 因为 是 关机 操作 ， 对 现 有 的 系统 不 改造 ， 即 使 实施 失败 ， 也 不 影响 现 有 系统 。 








缺点 : 物理 机 的 系统 没有 虚拟 机 的 磁盘 驱动 ， 比 如 KVM 的 Virtio， 要 将 驱动 导入 到 系统 中 ， 否 则 克隆 到 虚拟 机 中 的 系统 不 能 正常 启动 ，Windows 会 蓝屏 ，Linux 会 报 无 法 识别 硬盘 的 错误 。 


(2) 动态 方案 


缺点 : 要 在 现 有 系统 安装 Agent; 有 一 定 的 概率 转换 不 成 功 。 


7.3 Windows 系 统 物理 机 转 虚 拟 机 的 操作 方法 











Windows 系 统 物理 机 的 P2V 需 要 使 用 WinPE， 然 后 再 手工 加 载 Virtio 或 者 IDE 的 驱动 。 














7.3. WinPE 的 制作 方法 























手工 执行 Windows 系 统 的 物理 机 转 虚 拟 机 ， 需 要 使 用 WinPE 这 个 工具 。WinPE 即 Windows Preinstallation Environment， 提 供 一 个 最 小 的 Windows 环 境 ， 主 要 是 微软 为 了 方便 部 署 Windows 系 统 而 
设计 开发 的 。WinPE 支 持 网 络 ， 但 只 附带 命令 行 、 记 事 本 、VBS 等 简单 维护 工具 。 





















































最 早 的 WinPE 随 着 Windows XP 系统 一 起 发 布 ， 即 WinPE 1.0。 随 着 Windows XP SP1 发 布 的 是 WinPE 1.5， 这 是 一 个 经 典 的 WinPE 版 本 ， 有 许多 第 三 方 的 维护 管理 工具 都 是 在 这 个 WinPE 版 本 上 优化 修 
改 的 。 随 着 Windows Vista 发 布 的 是 WinPE 2.0, WinPE 2.0 支 持 powershell。 随 着 Windows 7 发 布 的 是 WinPE 3.0。 随 着 Windows 8 发 布 的 是 WinPE 4.0, WinPE 4.0 中 加 入 对 .NET 的 支持 ， 所 以 在 WinPE 
4.0 中 ， 可 以 支持 .NET 平 台 的 编程 语言 。 随 着 Windows 8.1 发 布 的 是 WinPE 5.0。 随 着 Windows 8.1 update1 发 布 的 是 WinPE 5.1， 这 也 是 当前 最 新 的 版 本 。Windows 10 对 应 的 WinPE 版 本 是 6.0， 随 着 
Windows 10 一 起 发 布 。 





本 书 以 WinPE 5.1 的 制作 为 例 ， 介 绍 WinPE 的 制作 方法 。 


第 1 步 : 到 微软 网 站 下 载 vadk 的 包 ， 链 接地 址 为 : 


http://go.microsoft.com/fwlink/p/?LinkID-232339 





下 载 完成 直接 安装 就 可 以 。 

















第 2 步 : 在 开始 菜单 启动 部 署 和 映像 工具 环境 ， 如 图 7-1 所 示 。 


Windows Kits 





启动 后 实际 是 一 个 命令 行 窗口 。 





Windows ADK 
ADK Getting Started Guide 


Windows 系统 映像 管理 语 


EE 部 署 和 了 映像 工具 环境 


图 7-1 Windows 开 始 菜单 的 部 署 和 映像 工具 环境 





第 3 步 : 复制 WinPE 制 作文 件 到 C 盘 。 


copype amd64 C:\WinPE amd64 





第 4 步 : 加 载 驱动 ， 主 要 是 一 些 比较 新 的 服务 器 ，WinPE 没 有 包含 网 卡 和 RAID 卡 ， 需 要 手工 加 载 。 





1) 先 要 挂 载 镜 像 。 








Dism /Mount-Image /ImageFile:"C:\WinPE_amd64\media\sources\boot.wim" /index:1 / 
MountDir:"C:WinPE amd64Wnount" 











2) 使 用 dism 命 令 加 载 驱动 ，C: \nic\nic1.inf 是 驱动 文件 路 径 。 

















Dism /Add-Driver /Image:"C: WinPE amd64Wnount" /Driver:"C:\nic\nicl.inf" 


Q.. 


加 载 驱动 的 时 候 ， 一 定 要 注意 驱动 程序 的 版 本 ， 要 与 WinPE 对 应 的 Windows 版 本 匹配 ， 并 且 还 要 注意 区 分 32 位 版 和 64 位 版 ， 


3) ERER. 


否则 驱动 不 能 正确 加 载 。 





Dism /Unmount-Image /MountDir:"C: WinPE amd64\mount" /commit 


第 5 步 : 将 镜像 打包 。 


如 果 制 作 U 盘 的 WinPE， 


执行 以 下 命令 : 





MakeWinPEMedia /UFD C:\WinPE amd64 F: 


如 果 制 作 ISO 的 WinPE， 


执行 以 下 命令 


MakeWinPEMedia /ISO C:\winpe amd64 c:\winpe_amd64\winpe.iso 











第 6 步 : WinPE 的 使 用 。 



































首先 需要 建立 一 个 共享 ， 可 以 使 用 Windows 共 享 功能 ， 也 可 以 使 用 Linux SMB 服 务 配置 。 然 后 需要 有 DHCP 服 务 的 网 络 环境 。 在 WinPE 启 动 后 ， 首 先 会 通过 DHCP 服 务 获得 |P 地 址 ， 然 


令 了 映射 共 享 目 























net use n: WserverNshare 




















可 以 将 Ghost 软件 放 到 共享 目录 上 ， 然 后 运行 Ghost 软件 ， 就 可 以 开始 克隆 Windows 系 统 到 共享 目录 上 了 。 


7.3.2 ”Windows 系 统 P2V 操 作 方法 


1. 转 换 成 IDE 硬 盘 方式 








后 通过 net use 命 














D 








第 1 步 : 在 物理 机 (以 下 简称 P 机 ) 上 运行 ide.reg 注 册 表 文件 ， 注 册 表 文件 比较 长 ， 读 者 可 以 通过 手机 扫描 如 图 7-2 所 示 的 二 维 码 ， 到 笔者 的 博客 上 阅读 。 





图 7-2 ”笔者 博客 的 二 维 码 





























根据 系统 不 同 ， 复 制 Windows 200332 位 系统 、64 位 系统 、Windows 2008 系 统 的 *.sys 文 件 到 windows\system32\driver 目 录 下 面 。 驱 动 文件 可 以 在 Windows 系 统 安装 光盘 或 者 已 经 有 1DE 设 备 的 系统 
中 复制 。 


第 2 步 : 启动 WinPE， 运 行 Ghost， 制 作 镜 像 。 


第 3 步 : 在 KVM 虚 拟 机 (以 下 简称 V 机 ) 上 以 pxe 方 式 启动 WinPE， 运 行 Ghost， 恢 复 镜 像 。 


SE 














第 4 步 : 启动 V 机 ， 系 统 会 重新 加 载 驱动 ， 然 后 提示 重启 ， 完 成 。 





第 1 步 : 在 物理 机 上 导入 Virtio 驱 动 的 注册 表 文 件 。 


SE 


注册 表 文件 需要 在 一 台 虚 拟 机 中 ， 参 照 IDE 了 驱动 的 注册 表 文 件 自己 制作 相应 键 值 的 注册 表 文 件 ， 并 进行 测试 ， 笔 者 博客 1 m) 上 (读者 可 以 扫描 图 7-2 所 示 的 二 维 码 ， 连 接 到 
笔者 的 博客 ) 提供 已 经 制作 好 的 注册 表 文 件 ， 读 者 可 以 下 载 。 
































根据 物理 机 系统 的 不 同 ， 复 制 相 应 Windows 200332 位 系统 、64 位 系统 或 者 Windows 2008 系 统 的 *.sys 文 件 到 windows\system32\driver 目 录 下 面 ， 右 击 安装 相应 驱动 下 的 viostor.inf。 





第 2 步 : 以 pxe 方 式 启动 WinPE， 运 行 Ghost， 制 作 镜像 。 


第 3 步 : 在 V 机 上 启动 WinPE， 运 行 Ghost， 恢 复 镜 像 。 





第 4 步 : 启动 V 机 ， 系 统 会 重新 加 载 驱动 ， 在 这 个 过 程 中 ， 提 示 需 要 安装 Virtio 驱 动 ， 按 照 提 示 安 装 ， 然 后 根据 提示 重启 ， 完 成 。 


74 Linux 物 理 服务 器 转换 虚拟 机 操作 


下 面 介绍 Linux 系 统 的 物理 机 转 虚 拟 机 的 手工 操作 步骤 。 


第 1 步 : 克隆 。 





Linux 推 荐 使 用 再 生 龙 这 个 克隆 软件 ， 并 且 配 置 一 个 NFS， 通 过 再 生 龙 ， 将 物理 机 克隆 到 NFS 服 务 器 上 ， 具 体操 作 请 参考 再 生 龙 的 相关 操作 ， 如 图 7-3 所 示 。 





图 7-3 ”再 升 龙 克隆 Linux 系 统 
第 2 步 : 还 原 。 


@ 创 建 一 个 虚拟 镜像 文件 ， 空 间 大 于 物理 机 。 





qemu-img create linux-P2V.qcow2.vda -f qocw2 300G 





@ 创 建 一 个 虚拟 机 ， 使 用 上 一 步 创建 的 镜像 文件 ， 并 按照 要 求 设置 CPU 和 内 存 。 
注意 : 这 一 步 硬盘 采用 IDE 方 式 。 
四 网 络 引 导 ， 用 再 生 龙 将 物理 机 镜像 恢复 到 这 台 虚 拟 机 中 。 


OREH. 





@ 查 看 镜像 分 区 和 硬盘 大 小 。 





virt-df -h linux-P2V.qcow2.vda 





@ 通 过 guestfish 修 改 Linux 分 区 大 小 。 





guestfish -a  linux-P2V.qcow2.vda 
run 

list-filesystem 

e2fsck-f /dev/vda2 

resize2fs-size /dev/vda2 30G 

exit 





第 3 步 : 修改 虚拟 机 硬盘 为 Virtio。 


通过 相应 版 本 的 安装 光盘 引导 ， 进 入 相应 版 本 的 救援 模式 ， 加 载 Virtio 驱 动 。 





modproble virtio virtio pci virtio blk virtio net 
chroot /mnt/sysimage 
sed -i "s/hda/vda/" /boot/grub/device.map 
mkinitrd --with virtio --with virtio pci --with virtio blk --with virtio net -f / 
boot/initrd-$ (uname -r).img $(uname =r) 





Virtio 驱 动 加 载 之 后 请 重启 。 


第 4 步 : 修改 内 核 的 时 间 设置 。 





因为 虚拟 机 都 会 发 生 时 间 飘 移 ， 所 以 需要 设置 一 下 内 核 参 数 ， 使 虚拟 机 的 时 间 走 得 更 精确 些 


按照 官方 文档 ， 每 个 系统 的 内 核 时 间 参 数 设置 如 表 7-1 所 示 。 


RedHat 企业 Linux 版 本 


表 7-1 Linux 系 统 虚 拟 机 时 间 配 置 方法 


6.0 AMD64A/Intel 64 及 上 版 本 使 用 半 虚 拟 化 时 钟 
6.0 AMD64/Intel 64 及 上 版 本 不 使 用 半 虚 拟 化 时 钟 
5.5 AMD64/Intel 64 及 上 版 本 使 用 半 虚 拟 化 时 钟 
5.5 AMD64/Intel 64 及 上 版 本 不 使 用 半 虚 拟 化 时 钟 


RedHat 企业 Linux 版 本 
5.5 x86 及 上 版 本 使 用 半 虚 拟 化 时 钟 
5.5 x86 及 上 版 本 不 使 用 半 虚 拟 化 时 钟 
5.4 AMD64/Intel 64 
5.4 x86 
5.3 AMD64/Intel 64 
5.3 x86 
4.8 AMD64/Intel 64 
4.8 x86 
3.9 AMD64/Intel 64 
3.9 x86 





7.5 ”使 用 virt-p2v 工 具 进 行 P2V 转 换 


CentOS 6 还 提供 了 一 个 工具 virt-p2v， 专 门 

















(1) virt-p2v 支 持 的 操作 系统 类 型 


virt-p2v 支 持 的 操作 系统 类 型 如 下 : 


* Red Hat Enterprise Linux 3，4，5，6，7。 


+ CentOS 3, 4, 5, 6, 7. 


* Scientific Linux 3, 4, 5, 6, 7. 


* Fedora。 


" SLES 10 及 以 上 版 本 。 


* OpenSUSE 10 及 以 上 版 本 。 


: Windows XP 到 Windows 7/Windows Server 2008 R2。 


(2) 支持 的 转换 方式 





virt-p2v 支 持 的 转换 方式 如 下 : 


:VMware ESXi 必 须 有 Vcenter， 不 支持 从 ESXi 直 接 转换 。 


: RHEL 5 Xen, 


< Citrix Xen Server 没 有 进一步 测试 。 


: HyperV 没 有 测试 过 。 


- 直接 磁盘 转换 ， 只 支持 虚拟 化 引擎 。 


“ 物理 机 。 


(3) virt-p2v 操 作 前 的 准备 工作 


virt-p2v 的 安装 很 简单 ， 一 条 命令 就 可 以 。 


于 物理 机 转 虚 拟 机 ， 就 是 将 上 面 介绍 的 步骤 自动 化 了 。 





， 同 时 建议 设置 NTP 服 务 器 。 


需要 添加 的 内 核 参数 
不 需要 额外 添加 参 类 
notsc ]p]=7 
divider=10™" 
divider=10 notsc lpj=n 


CHE) 


需要 添加 的 内 核 参 数 
不 需要 额外 添加 参数 
divider-10 clocksource-acpi pm lp]=7 
divider-10 notsc 
divider-10 clocksource-acpi pm 
divider-10 notsc 
divider-10 clocksource-acpi pm 
notsc divider-10 
clock-pmtmr divider-10 
不 需要 额外 添加 参数 
不 需要 额外 添加 参数 





yum install virt-v2v 




















安装 完成 ， 在 /usrshare/virt-p2v 目 录 下 面 有 一 个 ,iso 文件， 用 于 在 物理 机 上 启动 ， 将 物理 机 转换 到 虚拟 机 。 





cd /usr/share/virt-p2v/ 
ls 


virt-p2v-0.9.1-2.20130730.1.e16.centos.iso 





1SO 可 以 刻录 成 光盘 ， 也 可 以 转换 到 U 盘 上 ，U 盘 需要 先 格式 化 成 FAT 或 者 Ext2、Ext3 的 格式 ， 建 议 格式 化 成 FAT， 兼 容 性 比较 高 。 





mkfs.fat /dev/sda 





制作 启动 U 盘 ， 还 需要 安装 extlinux， 用 于 U 盘 引导 。 





yum install extlinux 





安装 后 运行 如 下 脚本 。 





mkdir /mnt/p2vmount 

mount -o loop virt-p2v-0.9.1-2.20130730.1.e16.centos.iso /mnt/p2vmount/ 

bash /mnt/p2vmount/LiveOS/livecd-iso-to-disk V 
/root/virt-p2v-0.9.1-2.20130730.1.e16.centos.iso /dev/sda 








这 样 就 可 以 完成 P2V 启 动 U 盘 的 制作 。 也 可 以 制作 基于 pxe 的 P2V 工 具 。 


(4) 制作 基于 pxe 的 P2V 工 具 





mkdir /mnt/p2vmount 

mount -o loop virt-p2v-0.9.1-2.20130730.1.e16.centos.iso /mnt/p2vmount/ 

bash /mnt/p2vboot/liveOS/livecd-iso-to-pxeboot 、 virt-p2v-0.9.1-2.20130730.1.e16. 
centos.iso 

cp -R p2vboot/ /tftpboot/ 





宿主 机 需要 配置 /etc/virt-v2v.conf。 在 文件 未 尾 </virt-v2v> 上面 加 入 以 下 内 容 : 





--> 
<profile name="myp2vtest"> # 配 置 文件 名 称 
«method»libvirt«/method» # 转 换 方式 ，1ibvirt 或 rhev 
«storage format-"raw" allocation-"preallocated"» # 虚 拟 机 镜像 方式 raw 或 者 qcow2 
default LLL Eg p: 
«/storage» 
«network type-'default"» I HESEJR E 
«network type-"network" name-"br0"/» REESE 
X/network» 
«/profile» 


«/virt-v2v» 





(5) 转换 方法 
第 1 步 : 使 用 P2V 光 盘 启动 ， 将 物理 机 转换 成 虚拟 机 。 


第 2 步 : 配置 IP， 如 图 7-4 所 示 。 如 果 有 DHCP， 可 以 使 用 DHCP。 





eth 52:54:00:99:F F Connected 


IP Configuratio 
O Automatic configuration 


IP Address: 


Gateway: 
DNS Servers: 





图 7-4 ”virt-p2v 光 盘 引 导 配 置 IP 界 面 


第 3 步 : 通过 SSH 连 接 到 宿主 机 ， 如 图 7-5 所 示 。 





宿主 机 配置 注意 点 : 


宿主 机 必须 是 直接 用 root 连接 ， 所 以 宿主 机 的 ssh root 登 录 权 限 必 须 打开 。 


virt-p2v 


Connect to conversion server 


Hostname: 


Username: |root 


Password: 


第 4 步 : 选择 磁盘 和 网 络 。 








配置 好 ， 然 后 转换 ， 如 图 7-6 所 示 。 完 成 后 会 提示 关机 ， 按 提示 操作 即 可 。 











virt-p2v 
Target properties 
Destination Profile: myrhev |v 


Name 
Number of CPUs: 
Memory (MB): 


到 宿主 机 上 查看 ， 虚 拟 机 已 经 生成 ， 启 动 配置 一 下 网 络 就 可 以 使 用 了 。 


7.6_P2V 经 验 总 结 








图 7-5 vitt-p2v 光 盘 引导 连接 宿主 机 界面 


Fixed Storage 
Convert | Device |Size (GB) | Transfer Progress 


Removable Media 
Convert | Device | Type 


sro 


Network Interfaces 
Convert | Device 





图 7-6 ”virt-p2v 物 理 机 转 虚 拟 机 进行 中 界面 




















操作 前 的 准备 工作 很 重要 ， 物 理 机 删除 不 需要 的 软件 ，Windows 系 统 要 清空 垃圾 站 ， 清 空 各 种 缓存 文件 ， 尤 其 是 浏览 器 的 缓存 文件 ， 笔 者 曾经 碰 到 因为 浏览 器 的 缓存 文件 过 多 ， 导 致 P2V 恢 复 的 时 候 不 





成 功 的 案例 。 

















一 般 情况 下 Windows Server 2008 R2 之 前 的 版 本 及 大 部 分 Linux 系 统 ， 上 























Windows 系 统 使 用 手工 方式 的 时 候 ， 工 具 方 面 : 

















:Ghost 软件 ， 建 议 使 用 高 版 本 。 


- WinPE 及 能 引导 WinPE 的 pxe 环 境 (环境 搭建 请 参考 微软 相关 文档 ) 。 





virt-p2v 基 本 都 能 成 功 。 如 果 是 Windows Server 2012, 或 者 是 服务 器 的 RAID virt-p2v 不 能 识别 ， 就 需要 使 用 手工 方式 。 


T4 关于 V2Y 





















































V2V 即 虚拟 机 转 虚 拟 机 ， 最 常用 的 场景 是 将 VMware 的 虚拟 机 转换 成 KVM 的 虚拟 机 。V2V 实 际 也 可 以 按照 P2V 的 方式 来 操作 ， 低 版 本 的 VMware 使 用 virt-p2v 工 具 来 操作 ， 高 版 本 的 使 用 安装 手工 P2V 的 
方法 来 操作 。 















































guestfish 还 提供 了 一 个 工具 virt-v2v， 可 以 支持 VMware ESXi5.0 以 前 的 版 本 直接 转换 成 KVM 虚 拟 机 ， 但 是 需要 有 Vcenter 支 持 ， 不 能 直接 将 单机 版 的 ESXi 虚 拟 机 转换 。 


















































virt-v2v 的 使 用 也 很 简单 ， 将 VMware 虚拟 机 关机 ， 运 行 virt-v2v 工 具 ， 附 带 上 VCenter 地 址 密码 及 要 转换 的 虚拟 机 名 字 ， 就 可 以 开始 转换 了 。 




















virt-v2v 也 支持 Xen， 但 是 对 高 版 本 的 Xen 支 持 不 好 ， 高 版 本 的 Xen 需 要 使 用 P2V 的 方法 进行 转换 。 
































对 于 Hyper-V 的 虚拟 机 转换 ， 没 有 直接 转换 的 工具 ， 需 要 使 用 P2V 的 方法 进行 转换 。 























78 “本章 小 结 























本 章 介绍 了 物理 机 转 虚 拟 机 的 方法 ， 物 理 机 转 虚 拟 机 在 生产 环境 中 经 常 要 用 到 ， 尤 其 是 软件 环境 配置 复杂 ， 或 者 操作 系统 比较 老 ， 不 能 在 较 新 的 服务 器 上 安装 的 情况 。 











下 一 章 将 为 读者 介绍 KVM 桌 面 虚拟 化 方面 的 实战 经 验 。 








第 8 章 KVM 桌 面 虚 拟 化 实践 


目前 市 场 上 已 经 有 VMware Horizon Viewer, Citrix XenDesktop 和 微软 VDI 方 案 等 成 熟 的 商业 解决 方案 ， 但 是 价格 不 菲 ， 不 是 所 有 企业 都 能 接受 。 近 几 年 ， 随 着 KVM 虚 拟 化 技术 的 逐渐 成 熟 ， 很 多 桌 
面 虚拟 化 解决 方案 开始 以 KVM 为 虚拟 化 引擎 。 本 章 将 为 读者 介绍 KVM 虚 拟 化 技术 在 桌面 虚拟 化 (Virtual Desktop Infrastructure, VDI) 中 应 用 的 一 些 要 点 。 桌 面 虚拟 化 与 服务 器 虚拟 化 有 很 大 不 同 ， 因 此 
作为 虚拟 化 引 警 的 KVM 也 需要 一 些 特殊 配置 才能 胜任 桌面 虚拟 化 的 工作 。 本 章 着 重 介绍 桌面 虚拟 化 不 同 于 服务 器 虚拟 化 的 要 点 和 笔者 的 一 些 生产 环境 的 经 验 。 





















































8.1 桌面 虚拟 化 简介 及 Spice 协 议 



























































桌面 虚拟 化 将 用 户 的 桌面 操作 系统 集中 运行 在 服务 器 端 ， 服 务 器 端 应 用 VMware、Xen、KVM 和 Hyper-V 等 虚拟 化 技术 ， 在 一 台 物 理 服 务 器 上 运行 多 个 桌面 操作 系统 ; 而 用 户 使 用 PC、 瘦 客户 端 等 终端 
设备 ， 通 过 RDP、PColP 和 Spice 等 远程 访问 协议 连接 到 桌面 操作 系统 。 由 此 可 见 ， 虚 拟 化 技术 和 远程 访问 协议 是 VDI 的 两 大 核心 技术 。 












































1. 桌 面 虚拟 化 相对 于 传统 PC 的 优势 











桌面 虚拟 化 相对 于 传统 PC 有 很 多 优势 。 
“ 降低 硬件 成 本 。VDI 环 境 通 常 物 理 机 的 虚拟 化 比例 非常 高 ， 例 如 在 笔者 的 环境 中 ， 一 台 物理 机 要 运行 50 台 Windows 7 虚拟 机 ， 给 用 户 配置 50 台 PC 的 成 本 显然 远 高 于 一 台 服 务 器 的 成 本 。 


“ 降低 运 维 成 本 ， 提 高 可 管理 性 。 在 传统 公司 中 ， 每 个 员工 都 有 自己 的 办 公 PC， 这 种 分 布 式 的 架构 给 IT 工程 师 的 维护 工作 带 来 很 多 不 便 。 使 用 桌面 虚拟 化 ， 所 有 桌面 操作 系统 集中 在 服务 器 端 ， 方 便 管 
理 ， 为 员工 分 配 一 个 新 的 PC 的 工作 变 成 了 仅仅 需要 部 署 一 台新 的 虚拟 机 ， 升 级 系统 的 操作 可 能 变 成 了 仅 需 要 替换 虚拟 机 模板 ; 而 有 全， 服务 器 的 故障 率 远 低 于 普通 PC， 增 加 了 桌面 操作 系统 的 稳定 性 。 





:使 移动 办 公 变 成 现实 。 例 如 用 户 在 公司 编辑 了 一 半 的 文档 、 打 开 的 应 用 程序 ， 在 其 他 任何 地 方 ， 只 要 通过 远程 连接 到 同一 台 虚 拟 机 ， 就 可 以 继续 之 前 的 工作 。 





桌面 虚拟 化 的 架构 主要 由 3 部 分 组 成 。 





:用户 终端 。 用 户 终端 是 用 户 访问 YDI 的 入 口 ， 可 以 是 一 台 PC、 一 个 疫 客 户 端 ， 也 可 以 是 一 台 平 板 电脑 ， 用 户 通过 终端 连接 到 服务 端的 桌面 操作 系统 。 


“ 远程 访问 协议 。 前 面 提 到 的 RDP、PCoIP 和 Spbice 都 是 远程 访问 协议 ， 用 户 在 终端 的 操作 和 桌面 操作 系统 的 画面 、 上 声音 等 信息 都 是 通过 这 些 协 议 进 行 交 互 的 ， 可 以 说 协议 的 用 户 体验 影响 一 个 桌面 虚拟 
化 解决 方案 的 成 败 。 


“ 康 拟 化 服务 器 。 在 物理 服务 器 上 通过 虚拟 化 引擎 运行 多 个 桌面 操作 系统 ， 这 一 部 分 为 桌面 虚拟 化 提供 实际 的 计算 服务 。 


2.Spice 协 议 











上 文 提 到 了 ， 远 程 访问 协议 是 桌面 虚拟 化 的 重要 组 成 部 分 。 基 于 KVM 的 桌面 虚拟 化 方案 使 用 的 是 Spice 协 议 。Spice 是 一 个 开源 的 远程 访问 协议 ， 客 户 端 可 以 通过 Spice 协 议 访问 服务 端的 图 像 、 声 音 及 
键盘 、 鼠 标 等 设备 。 


























从 运 维 的 角度 ， 可 以 把 Spice 的 架构 分 为 3 部 分 : Spice 客 户 端 、Spice 服 务 端 及 Spice Agent, 





Spice 客 户 端 (如 Linux 上 的 virt-viewer) 是 负责 发 起 连接 的 ， 在 桌面 虚拟 化 的 架构 中 ，Spice 客 户 端 运行 在 用 户 终端 上 。 

















Spice 服 务 端 负 责 处 理 客户 端的 连接 请 求 ， 运 行 在 宿主 机 上 。 以 Ubuntu 系 统 为 例 ， 需 要 在 宿主 机 上 安装 软件 包 libspice-server1。 








root@localhost:~# apt-get install libspice-serverl 
























































Spice Agent 是 一 个 可 选 组 件 ， 运 行 在 虚拟 机 内 ， 它 的 作用 是 增强 性 能 ， 提 高 用 户 体验 ， 并 提供 一 些 显示 方面 的 设置 。 考 虑 到 用 户 体验 的 重要 性 ， 这 个 组 件 一 定 要 安装 ， 具 体 安装 方法 在 后 面 介绍 
Windows 镜 像 的 小 节 有 介绍 。 





























8.2 ”桌面 虚拟 化 实践 经 验 



































桌面 虚拟 化 在 虚拟 机 的 视频 、 声 音 配置 方面 需要 特殊 注意 ， 在 宿主 机 的 配置 方面 可 以 考虑 使 用 KSM 这 样 的 内 存 压缩 技术 。 























1. 桌 面 虚拟 化 中 KVM 虚 拟 机 的 .xm 配置 文件 





Ej 




















桌面 虚拟 化 的 虚拟 机 与 服务 器 虚拟 化 不 同 ， 除 了 承载 计算 任务 外 ， 还 要 负责 处 理 声音 、 





网 








像 等 多 媒体 内 容 ， 以 及 考虑 如 何 支持 远程 访问 协议 。 下 面 先 列 出 笔者 生产 环境 的 一 台 虚 拟 机 的 xm 配置 文件 。 











«domain type-'kvm' id='1'> 

«name»instance-00000016«/name» 
«uuid»3b30f4b0-ebc9-4f99-9170-e734df98c597«/uuid» 

«memory unit-'KiB'22097152«/memory» 

«currentMemory unit-'KiB'»2097152«/currentMemory» 

<vcpu placement-'static'»2«/vcpu» 

<sysinfo type-'smbios'» 

«system» 

«entry name-'manufacturer'»OpenStack Foundationc/entry» 

«entry name-'product'»OpenStack Nova</entry> 

«entry name-'version'»1.4.0«/entry» 

«entry name-'serial'»13d465a0-1dd2-11b2-ba78-000000821800«/entry» 
«entry name-'uuid'»3b30f4b0-ebc9-4f99-9170-e734df98c597«/entry» 
«/system» 

«/sysinfo» 

«os» 

«type arch-'x86 64' machine-'pc-i440fx-1.4'»hvm«/type» 

«boot dev-'hd'/* 

«smbios mode-'sysinfo'/» 

«/os» 

«features» 

«acpi/» 

«apic/» 

«/features» 

«cpu mode-'host-model!'» 

«model fallback-'allow'/» 

</cpu> 

«clock offset='localtime'> 

<timer name='pit' tickpolicy='delay'/> 

«timer name-'rtc' tickpolicy='catchup'/> 

«timer name-'hpet' present-'no'/» 

«/clock» 

Xon poweroff»destroy«/on Poweroff> 

Xon reboot?restart«/on reboot» 

Xon crash»destroy«/on crash» 

«devices» i 

«emulator»/usr/bin/kvm-spice«/emulator» 

«disk type-'file' device-'disk'» 

Xdriver name-'gemu' type-'qcow2' cache-'none'/» 

«source file-'/vdesktop/3b30f4b0-ebc9-4f£99-9170-e734d£98c597/disk'/» 
«target dev-'vda' bus-'virtio'/» 

«alias name-'virtio-disk0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x06' function-'0x0'/» 
«/disk» 

«interface type-'bridge'» 

«mac address-'fa:16:3e:30:29:dc'/» 

<source bridge-'br-int'/» 

*virtualport type-'openvswitch'» 

«parameters interfaceid-'5163a895-3a7c-47b6-adb5-264398c777e4' /» 
«/virtualport» 

«target dev-'tap5163a895-3a'/» 

«model type-'virtio'/» 

«alias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 

«serial type-'file'» 

<source path-'/vdesktop/3b30f4b0-ebc9-4£99-9170-e734d£98c597 /console.log'/» 
«target port-'0'/» 

«alias name-'serial0'/» 

«/serial» 

«serial type-'pty'» 

«source path-'/dev/pts/1'/» 

«target port='1'/> 

«alias name-'seriall'/» 

</serial> 

<console type='file'> 

<source path='/vdesktop/3b30f4b0-ebc9-4f99-9170-e734df98c597/console.log'/> 
<target type='serial' port='0'/> 

<alias name='serial0'/> 

</console> 

<channel type='spicevmc'> 

<target type-'virtio' name-'com.redhat.spice.0'/» 

«alias name-'channel0'/» 

Xaddress type-'virtio-serial' controller-'0' bus-'0' port-'1'/» 
X/channel» 

<input type-'tablet' bus-'usb'» 

«alias name-'input0'/» 

«/input» 

<input type-'mouse' bus-'ps2'/» 

«graphics type-'vnc' port-'5900' autoport-'yes' listen-'0.0.0.0' keymap-'en-us'» 
«listen type-'address' address-'0.0.0.0'/» 

X/graphics» 

«graphics type-'spice' port-'10022' autoport-'no' listen-'0.0.0.0' keymap-'en-us'» 
«listen type-'address' address-'0.0.0.0'/» 

«/graphics» 

«sound model-'ich6'» 

«alias name-'sound0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x04' function-'0x0'/» 
«/sound» 

«video» 

«model type-'qxl' ram-'65536' vrame'65536' heads-'1'/» 

«alias name-'video0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x02' function-'0x0'/» 
«/video» 

«memballoon model-'virtio'» 

«alias name-'balloon0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/memballoon» 

</devices> 

<seclabel type='dynamic' model='apparmor' relabel='yes'> 
<label>libvirt-3b30f4b0-ebc9-4f99-9170-e734df98c597</label> 
«imagelabel»libvirt-3b30f4b0-ebc9-4f£99-9170-e734df98c597«/imagelabel» 
X/seclabel» 

«/domain» 
























可 以 看 到 大 部 分 地 方 和 服务 器 虚拟 化 是 一 样 的， 需要 关注 几 个 与 服务 器 虚拟 化 不 同 的 地 方 。 


1) sound 和 video 设 备 不 再 可 有 可 无 ， 而 是 很 重要 。 





配置 如 下 : 


<sound model-'ich6'» 

«alias name='sound0'/> 

<address type-'pci' domain-'0x0000' bus-'0x00' slot='0x04' function='0x0'/> 
</sound> 

<video> 

«model type-'qxl' ram='65536' vram='65536' heads-'1'/» 

«alias name-'video0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x02' function-'0x0'/» 
«/video» 

















需要 修改 的 地 方 不 多 ，video 的 model type 需 要 注意 。 如 果 使 用 qx|， 虚 拟 机 内 部 需要 安装 qx| 驱 动 程序 ， 否 则 虚拟 机 可 能 启动 失败 。 














2) 对 Spice 协 议 的 支持 。 


配置 如 下 : 





Xgraphics type-'spice' port-'10022' autoport-'no' listen-'0.0.0.0' keymap='en-us'> 
«listen type-'address' address-'0.0.0.0'/» 
«/graphics» 





2.Windows 7 模板 制作 注意 事项 
本 节 只 罗列 与 服务 器 虚拟 化 模板 不 同 的 地 方 。 


(1) 安装 spice guest tools 





在 讲 Spice 协 议 的 时 候 提 到 了 RHEV Spice Agent 和 qxl 驱 动 ， 这 两 个 组 件 要 安装 在 虚拟 机 中 。 


下 载 地 址 : 





http://www.spice-space.org/download/windows/spice-guest-tools/spice-guest-tools- 
0.74.exe 








这 个 安装 程序 集成 了 RHEV Spice Agent 和 qxl 驱 动 。 安 装 完成 后 系统 中 会 出 现 RHEV Spice Agent 服 务 ， 请 确保 该 服务 开机 自动 启动 。 
(2) 系统 配置 调整 


关闭 系统 的 睡眠 、 休 眠 ， 在 控制 面板 的 “电源 选项 ”中 设置 ， 如 图 8-1 所 示 。 
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图 8-1 关闭 系统 休眠 











关闭 “系统 自动 关闭 硬盘 ”功能 ， 如 图 8-2 所 示 。 





关闭 屏幕 保护 ， 如 图 8-3 所 示 。 


i 选择 您 要 自 定 交 的 电源 计划 , AARE TEBDUTESTE 
BREUI. 
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日 唤醒 时 需要 密码 
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E] 在 省 时 间 后 关闭 硕 盘 





图 8-2 关闭 “系统 自动 关闭 硬盘 ”功能 
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屏幕 保护 程序 





图 8-3 关闭 屏幕 保护 























Windows 虚 拟 机 在 被 硬 重启 或 启动 中 有 其 他 错误 的 时 候 容易 进入 恢复 模式 ， 对 虚拟 机 来 说 恢复 模式 意义 不 大 ， 而 
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出 现 后 还 要 运 维 人 员 处 理 ， 因 此 可 以 关 掉 。 方 法 是 在 cmd 命 令 行 界面 中 执行 以 下 命 

















bcdedit /set (default) bootstatuspolicy ignoreallfailures 


3. 宿 主机 系统 为 Ubuntu 12.04 时 的 KSM 参 数 调整 











桌面 虚拟 化 中 由 于 虚拟 化 比例 高 ， 内 存 是 非常 珍贵 的 资源 ， 运 














KSM (内 存 压 缩 技术 ) 效果 很 好 。 但 是 Ubuntu 12.06 关 了 


/sys/kernel/mm/ksm/pages to _scan 指 定 KSM 每 次 扫描 多 少 内存 页 ， 默 认 值 为 100。 





/sys/Kernel/mm/ksm/sleep_millisecs 指 定 KSM 每 次 扫描 之 间 


要 做 的 调整 如 下 : 


echo "1000" > /sys/kernel/mm/ksm/pages to scan 
echo "100" » /sys/kernel/mm/ksm/sleep millisecs 


可 以 发 现 ， 调 整 的 结果 是 增加 了 KSM 的 工作 速度 ， 调 大 了 每 次 


4. 宿 主机 系统 为 CentOS 6.5 的 SSD 磁 盘 调 度 算法 调整 


的 间隔 时 间 ， 默 认 值 为 200， 单 位 是 ms。 


FFKSM 的 默认 配置 并 不 能 正常 运行 ， 需 要 进行 调整 。 











扫描 的 内 存 页 数 ， 调 小 了 时 间 间 隔 。 为 了 让 调整 永久 生效 ， 


把 上 述 命令 写 入 /etc/rc.local。 





在 有 些 对 性 能 敏感 的 桌面 虚拟 化 项 目 中 ，SSD 磁 盘 是 一 个 很 好 的 选择 。SSD 磁 盘 在 随机 读 / 写 方面 相对 了 
排查 发 现 ，CentOS 6.5 默 认 的 磁盘 调度 算法 CFQ 并 不 适合 SSD。 




















FF 机械 磁盘 优势 明显 ， 但 是 在 笔者 的 生产 环境 中 曾经 发 现 SSD 在 CentOS 6.5 中 的 表现 不 如 预期 。 经 





最 终 期 限 算法 (Deadline) 和 完全 公平 排队 算法 (CFQ) 是 常见 的 两 种 磁盘 调度 算法 ， 它 们 最 核心 的 工作 可 以 总 结 为 : 为 MO 请 求 进 行 排序 以 及 对 邻近 的 MO 请 求 进行 合 并 。 机 械 磁盘 在 响应 MO 请 求 时 
最 大 的 耗 时 发 生 在 机 械 臂 寻 道 ， 排 序 正 是 为 了 减少 寻 道 时 间 。 但 是 SSD 不 存在 寻 道 的 问题 ， 排 序 工 作 便 成 了 无 意义 的 。 因 此 ，Linux 内 核 还 实现 了 一 种 专 为 随机 访问 的 块 设备 而 生 的 调度 算法 一 一 空 操作 
(Noop) ， 这 种 算法 只 做 合并 不 做 排序 工作 。 修 改 磁盘 调度 的 命令 如 下 (假设 sdb 是 SSD) : 








echo "noop" > /sys/block/sdb/queue/scheduler 





为 了 让 调整 永久 生效 ， 可 以 把 命令 写 入 /etc/rc.local。 


5. 虚 拟 机 没有 声音 排 障 





宿主 机 为 CentOS 6.5 时 ， 如 果 通 过 Spice 协 议 连 接 虚 拟 机 发 现 没有 声音 ， 可 以 尝试 调整 /etc/libvirt/qemu.conf 中 的 一 个 参数 。 





vnc allow host audio = 1 











这 个 值 默认 为 0， 调 整 后 重启 libvirt-bin 服 务 。 如 果 在 其 他 解决 方法 失败 后 ， 可 以 尝试 这 个 调整 。 


83 本章 小 结 








桌面 虚拟 化 绝 大 部 分 技术 和 普通 的 虚拟 化 技术 是 一 样 的 ， 本 章 根据 笔者 的 生产 环境 经 验 ， 介 绍 了 一 些 需要 特别 注意 的 地 方 ， 希 望 能 对 读者 的 生产 环境 桌面 虚拟 化 有 所 帮助 。 








下 一 章 开始 介绍 分 布 式 文件 系统 在 KYM 虚拟 化 中 的 使 用 。 


第 二 篇 “分 布 式 文件 系统 


“ 第 9 章 ” 几 种 常见 开源 文件 系统 在 KVM 中 的 应 用 


- B10% Ceph 在 KVM 虚 拟 化 中 的 应 用 与 故障 处 理 


第 9 章 ” 几 种 常见 开源 文件 系统 在 KYM 中 的 应 用 





本 章 将 为 读者 介绍 几 种 常见 开源 分 布 式 文件 系统 在 KVM 虚 拟 化 中 的 应 用 。 本 章 介 绍 的 几 种 分 布 式 文件 系统 配置 简 生 
定 ， 在 生产 环境 中 使 用 比较 多 。Sheepdog 是 专门 为 KVM 定制 的 分 布 式 文件 系统 ，QEMU 原 生 支 持 ， 正 在 逐步 才 








E， 都 可 以 弹性 伸缩 ， 其 中 DRBD、GlusterFS、MooseFS 几 种 分 布 式 文件 系统 成 熟 稳 
E 向 成 熟 。 本 章 将 会 介绍 这 些 分 布 式 文件 系统 的 基本 概念 、 配 置 方 法 及 如 何在 KYM 虚拟 化 中 应 
































9.1 ”演示 环境 基础 配置 











本 章 介绍 的 4 款 分 布 式 文件 系统 ， 笔 者 都 在 同样 的 环境 下 演示 配置 ，4 款 文件 系统 基础 配置 都 一 样 ， 为 了 避免 导 





E 复 介绍 ， 在 本 节 为 读者 介绍 一 下 笔者 的 演示 环境 及 基础 配置 。 



































笔者 的 演示 环境 使 用 两 台 宿 主机 ， 一 台 宿 主机 运行 6 台 虚 拟 机 ， 配 置 分 布 式 文件 系统 ; 一 台 宿 主机 挂 载 分 布 式 文件 系统 ， 并 将 虚拟 机 运行 在 分 布 式 文件 系统 上 。 
1. 硬 件 环境 


1) 宿主 机 1 配置 。 








运行 6 台 虚 拟 机 ， 配 置 如 下 。 


- CPU: Intel (R) Xeon (R) X5650(22.67GHz*2, 

| 内 存 : 24GB。 

:硬盘 类 型 1: 300GB SAS*4 安 装 系统 ， 存 储 庶 拟 机 系统 镜像 。 

- 硬盘 类 型 2: Intel 3500 SSD 300GB*2， 根 据 测试 分 布 式 文件 系统 的 不 同 ， 划 分 大 小 不 同 的 lv， 挂 给 虚拟 机 使 用 。 
2) 宿主 机 1 上 6 台 虚 拟 机 配置 。 

| CPU: 4 个 虚拟 机 CPU。 

- WR: 3GB。 


- 硬盘 类 型 1: 100GB 安 装 系统 。 


“ 硬盘 类 型 2: 根据 测试 分 布 式 文件 系统 的 不 同 ， 挂 载 大 小 不 同 的 lv。 


3) 宿主 机 2 配置 。 





“ 品牌 型 号 : HP 380 G7。 
- CPU: Intel (R) Xeon (R) X5650(32.67GHz*2. 
“内存: 24GB。 
“硬盘: 600GB SAS+*4 安 装 系统 。 
4) 宿主 机 2 上 一 台 虚拟 机 配置 。 
(CPU: 4 个 虚拟 机 CPU。 
“ 内存 : 3GB。 
硬盘 类 型 1: 100GB 安 装 系统 。 
“ 硬盘 类 型 2: 根据 测试 分 布 式 文件 系统 的 不 同 ， 挂 载 大 小 不 同 的 lv。 


2. 软 件 环境 











如 果 没 有 特殊 说 明 ， 默 认 系统 使 用 CentOS 7， 内 核 升 级 到 3.10.0-123.13.2.el7.x86 64，IP、 主 机 名 分 配 如 表 9-1 所 示 。 





表 9-1 测试 环境 ITP、 主 机 名 对 应 关系 


x TIT 
宿主 机 1 10.0.0.182 
分 布 式 文件 系统 存储 节点 虚拟 机 1 10.0.0.183 
分 布 式 文件 系统 存储 节点 虚拟 机 2 10.0.0.184 
分 布 式 文件 系统 存储 节点 虚拟 机 3 10.0.0.185 
分 布 式 文件 系统 存储 节点 虚拟 机 4 10.0.0.186 
分 布 式 文件 系统 存储 节点 虚拟 机 5 10.0.0.187 
分 布 式 文件 系统 存储 节点 虚拟 机 6 10.0.0.188 
宿主 机 2 10.0.0.251 
分 布 式 文件 系统 挂 载 虚拟 机 10.0.0.189 


3. 基 本 环境 配置 
1) 安装 epel 源 。 


安装 epel， 执 行 如 下 命令 : 


rpm -ivh \ 
http: //dl.fedoraproject.org/pub/epel/7/x86 64/e/epel-release-7-5.noarch.rpm 





2) 配置 NTP， 保 证 时 间 同 步 。 
运行 命令 ntpdate ntp 服 务 器 ， 并 将 命令 添加 到 crontab 中 ， 每 隔 20 分 钟 运行 一 次 。 


3) 配置 主机 名 hostname。 





CentOS 7 配置 hostname 有 两 种 方法 。 








第 一 ， 立 即 生效 的 方法 ， 使 用 hostnamectl 命 令 。 


























查看 状态 ， 使 用 命令 hostnamectl status。 修 改 hostname 使 用 hostnamectl set-hostname 加 需要 修改 的 hostname。 


第 二 ， 重 启 后 生效 的 方法 。 





修改 /etc/hostname 配 置 文件 ， 然 后 重启 。 





hostname 修 改 后 ， 修 改 每 台 服务 器 的 /etc/hosts， 将 每 个 节点 的 IP 和 主机 对 应 信息 填写 进去 ， 使 每 个 节点 通过 hostname 能 够 互相 访问 。 


9.2 DRBD 在 KVM 中 的 应 用 


9.2.1 DRBD 介 绍 























分 布 式 复制 块 设备 (Distributed Replicated Block Device, DRBD) 是 一 款 基于 Linux 的 开源 软件 ， 它 由 内 核 模 块 和 管理 工具 组 成 ， 通 过 网 络 进行 块 设备 的 同步 镜像 。 数 据 写 入 本 地 的 DRBD 设 备 上 的 
文件 系统 时 ， 同 时 被 发 送 到 网 络 中 的 另外 一 台 主 机 之 上 ， 并 以 完全 相同 的 形式 记录 。 本 地 节点 (主机 ) 与 远程 节点 (主机 ) 的 数据 可 以 保证 实时 同步 ， 并 保证 MO 的 一 致 性 。 如 图 9-1 所 示 ，DRBD 类 似 基于 
网 络 RAID 1。 


























SERVICE SERVICE 


i i 


€ 








FILE SYSTEM i FILE SYSTEM 
i7 地 i i 
BUFFER CACHE BUFFER CACHE 
5 il 

"T $2; RAW DEVICE RAWDEVICE $S 四 a 








scili l TCP/IP TCP/IP — 
a! 
ij po E i 
DISK SCHED H T DISK SCHED 
wi ] pa | 
ij | i1 
DISK DRIVER NIC DRIVER NIC DRIVER DISK DRIVER 
地 地 Hd IB 





S vada Rr S 


DISK NIC NIC DISK 











9-1 DRBDAUS (图 片 来 自 DRBD 官 方 网 站 ) 















































DRBD 已 经 发 布 多 个 版 本 ， 目 前 DRBD 9.0 版 本 已 经 发 布 测试 版 本 ，DRBD 成 熟 稳 定 ， 被 亲切 地 称 为 “穷人 的 存储 ”。 在 高 可 用 (HA) 解决 方案 中 使 用 DRBD， 可 以 代替 使 用 商业 存储 设备 。 因 为 数据 同 
时 存在 于 本 地 主机 和 远程 主机 上 ， 在 遇 到 需要 切换 的 时 候 ， 远 程 主机 只 需要 使 用 它 上 面 的 那 份 备份 数据 ， 就 可 以 继续 提供 服务 。 


















































(1) DRBD 复 制 协议 
DRBD 的 复制 有 3 种 协议 。 
HRA: 异步 复制 协议 。 本 地 写成 功 后 立即 返回 ， 数 据 放 在 发 送 Buffer 中 ， 如 果 服 务 器 掉 电 ， 数 据 可 能 丢失 。 


“ 协议 B: 内 存 同 步 〈 半 同步 ) 复制 协议 。 本 地 写成 功 并 将 数据 发 送 到 对 方 后 立即 返回 ， 如 果 双 机 掉 电 ， 数 据 可 能 丢失 。 





HRC: 同步 复制 协议 。 本 地 和 对 方 写成 功 确认 后 返回 。 如 果 磁 盘 同时 损坏 ， 则 数据 可 能 丢失 。 
o. 
生产 环境 从 数据 安全 性 角度 出 发 ， 建 议 使 用 协议 C， 协 议 C 也 是 同步 速度 最 慢 的 方式 ， 实 际 是 牺牲 速度 换取 了 数据 可 靠 性 。 
(2) DRBD 使 用 方式 
DRBD 使 用 方式 可 以 分 为 两 种 。 
“ 主 备 模式 : 两 台 存 储 服务 器 ， 一 主 一 备 ， 主 出 现 故 障 的 时 候 ， 备 机 顶替 ， 同 时 只 有 一 台 服 务 器 提供 服务 。 


“ 双 主 模式 : 两 台 存 储 服务 器 ， 同 时 提供 服务 ， 共 同 分 担 压力 ， 当 一 台 服 务 器 故障 的 时 候 ， 服 务 性 能 降级 ， 但 是 不 会 中 断 。 


92.2 ”DRBD 搭 建 方法 及 在 KVM 中 的 应 用 












































笔者 生产 环境 使 用 的 是 DRBD 8.4.5，DRBD 8.4.5 不 支持 应 用 层 的 自动 切换 ， 应 用 层 的 自动 切换 需要 用 到 Corosync、Pacemaker 工 具 ，Corosyncs 是 Linux 集 群 通信 套件 ，Pacemaker 是 一 套 以 资源 管 
理 为 基础 的 Linux 系 统 集群 管理 软件 。 



































KVM 使 用 DRBD 有 两 种 用 法 。 











“ 通过 NFS 方 式 使 用 。 


' 通过 iSCSI 方式 使 用 。 

















笔者 在 生产 环境 中 一 直 使 用 的 是 iSCSI 方式 ， 本 节 介 绍 一 下 使 用 DRBD 搭 建 i%CSI 集 群 的 方法 。 




















提示 


关于 虚拟 化 后 端 存储 使 用 NFS 还 是 iSCSI， 业 界 一 直 有 争论 ， 争 论 主要 集中 在 易 用 性 、 稳 定性 、 性 能 上 。 笔 者 在 生产 环境 中 偏爱 使 用 iSCSI， 从 笔者 的 实践 经 验 来 看 ， 同 样 条 件 下 ，iSCSI 配 置 虽然 复杂 ， 但 
是 稳定 性 、 性 能 、 安 全 性 都 能 满足 需求 。 


1.DRBD 搭 建 操作 步骤 规划 


DRBD 集 群 的 搭建 规划 如 下 。 


1) 两 台 存储 服务 器 命 














笔者 测试 环境 如 9.1 节 介绍 的 情况 ， 在 KVM 虚 拟 化 中 使 用 DRBD 一 般 使 用 主 备 模式 ， 所 以 需要 两 个 角色 。 





“ 主 节 点 (Master) : 存储 节点 虚拟 机 host185。 


.备用 节点 (Slave) : 存储 节点 虚拟 机 host188。 


N 


存储 服务 器 镜像 存储 空间 。 


宿主 机 1 的 两 块 SSD 分 布 以 裸 盘 的 形式 挂 给 两 台 虚 拟 机 使 用 ， 在 存储 节点 虚拟 机 中 看 到 的 就 是 /dev/vdb， 作 为 DRBD 的 镜像 盘 。 





Ww 


创建 同步 镜像 盘 。 


配置 DRBD 服 务 ， 并 创建 同步 镜像 盘 drbd1。 





4) 配置 corosync， 使 得 两 个 节点 可 以 通信 。 

5) 配置 iSCSI 服务 1SCSITarget。 

DRBD 主 节点 使 用 /dewdrbd1 创 建 pv， 创 建 名 为 jscsivg01 的 vg， 划 分 名 为 LUN1 的 |v 作 为 iSCSI 的 Target 输 出 。 
6) 配置 Pacemaker。 

Pacemaker 主 要 配置 以 下 资源 : 

- 创建 DRBD 的 主 从 资源 。 

:创建 心跳 ， 浮 动 IP。 

: 创建 vg&、lv 的 资源 。 

“ 创建 iSCSI 服务 资源 。 


7) KVM 计 算 节点 使 用 。 




















使 用 iSCSI 方式 通过 浮动 |P 连 接 DRBD 集 群 共享 出 来 的 块 设备 ， 创 建 pv、vg， 划 分 |v 给 虚拟 机 使 用 。 








2.DRBD 配 置 





(1) DRBD 安 装 


因为 DRBD 的 8.4.5 版 本 只 宣布 支持 CentOS 5、6， 因 此 DRBD 集 群 的 搭建 使 用 CentOS 6.6， 内 核 版 本 升级 为 2.6.32-504.3.3.el6.x86_64。 








DRBD 的 安装 非常 简单 ， 首 先 安装 elrepo 的 源 。 








rpm -Uvh http://www.elrepo.org/elrepo-release-6-6.e16.elrepo.noarch.rpm 








然后 通过 yum 命 令 安装 DRBD 内 核 kmod 和 管理 工具 ， 再 加 载 一 下 内 核 就 可 以 了 。 





yum install drbd84-utils kmod-drbd84 
modprobe drbd 





(2) 配置 DRBD 


修改 配置 文件 内 容 如 下 ， 两 个 节点 都 要 操作 。 





cat /etc/drbd.conf 
finclude "/etc/drbd.d/global common.conf"; 
include "/etc/drbd.d/*.res"; 


(3) 编辑 资源 文件 


cat /etc/drbd.d/iSCSIvg01l.res 
global ( 

usage-count yes; 

# 是 否 到 DRBD 官 方 网 站 去 登记 
} 

common { 

protocol C; 

Mn ax cA s 

disk ( 

on-io-error detach; 
fencing resource-only; 


} 

net { 

cram-hmac-alg shal; 

shared-secret "a6a0680c40bca2439dbe48343ddddcf4" ; 
# 数 据 同步 加 密 

} 

syncer { 

rate 300M; 

# 同 步 速率 控制 在 300M/s 

} 


handlers { 

fence-peer "/usr/lib/drbd/crm-fence-peer.sh"; 
after-resync-target "/usr/lib/drbd/crm-unfence-peer.sh"; 
pri-on-incon-degr "echo b » /proc/sysrq-trigger"; 


} 


resource iSCSIvg01 ( 
device /dev/drbdl; 
disk /dev/vdb; 
meta-disk internal; 
# 使 用 /dev/vdb 创 建 镜像 盘 ， 镜 像 盘 名 字 为 drbd1 
net ( 
max-buffers 8192; 
max-epoch-size 8192; 
sndbuf-size 2048k; 


unplug-watermark 127; 


disk ( 
disk-barrier no; 
disk-flushes no; 
resync-rate 150M; 
c-plan-ahead 200; 
c-max-rate 200M; 
c-min-rate 25M; 
c-fill-target 15M; 


H 
on host185 ( 
address ipv4 10.0.0.185:7898; 


} 

on host188 { 

address ipv4 10.0.0.188:7898; 
# 两 个 节点 信息 

l 


} 





(e 
c-max-tate、c-min-rate 这 两 个 参数 要 保持 平衡 ， 否 则 会 造成 同步 速率 上 不 去 ， 读 者 可 以 根据 自己 的 实际 环境 调节 测试 。 
(4) 启动 DRBD 服 务 


两 个 节点 都 要 操作 。 





/etc/init.d/drbd restart 

# 创 建 资源 

drbdadm create-md iscsivg01l 
drbdadm adjust iSCSIvg01l 

# 启 动 服务 ， 并 设置 开机 自 启动 
/etc/init.d/drbd restart 
chkconfig drbd on 





(5) 设置 主 备 ， 并 同步 数据 





查看 DRBD 状 态 ， 可 以 看 到 两 个 都 是 Secondary。 





cat /proc/drbd 

version: 8.4.5 (api:1/proto:86-101) 

GIT-hash: 1d360bde0e0958495786eaeb2alac76888e4db96 build by root8host185, 

2015-01-27 02:23:13 

1: cs:Connected ro:Secondary/Secondary ds:Inconsistent/Inconsistent C r- 
ns:0 nr:0 dw:0 dr:0 al:0 bm:0 10:0 pe:0 ua:0 ap:0 ep:1 wo:d o0s:292994436 








提升 host185 为 DRBD 的 主 节 点 ， 在 host185 上 执行 如 下 命令 : 





drbdsetup /dev/drbdl primary 





或 者 下 面 的 命令 也 可 以 : 





drbdadm primary iSCSIvg01 





在 host185 上 查看 状态 ， 可 以 看 到 本 地 节点 已 经 提升 为 主 节点 ， 并 且 开 始 同步 镜像 盘 的 数据 。 








cat /proc/drbd 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
1: cs:SyncTarget ro:Primary/Secondary ds:Inconsistent/UpToDate C r----- 
ns:0 nr:6259832 dw:6259712 dr:608 al:0 bm:0 10:0 pe:0 ua:0 ap:0 ep:1 wo:d 
008:286734724 
[»http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text./ 
finish: 0:28:53 speed: 165,376 (160,504) want: 166,280 K/sec 


. http: //www.hzcourse.com/resource/readBook?path-/openresource 





至 此 ，DRBR 安 装 设置 完成 。 
3. 配 置 Corosync 


(1) Corosync 安 装 





通过 yum 命 令 可 以 直接 安装 ， 两 个 节点 上 都 要 安装 。 




















yum -y install Pacemaker 





(2) 配置 Corosync 


编辑 /etc/ha.d/authkeys 内 容 如 下 : 





cat /etc/ha.d/authkeys 
auth 1 
1 shal secret 








修改 文件 属性 ， 内 容 如 下 : 





chmod 600 /etc/ha.d/authkeys 





编辑 Corosync 配 置 文件 ， 内 容 如 下 : 





cat /etc/corosync/corosync.conf 
# 用 户 、 组 定义 
aisexec { 

user: root 

group: root 


} 
PRIEL, 1M pacemakerik 4- 


service { 


name: Pacemaker 
ver: 0 
use mgmtd: yes 
} 
totem { 
version: 2 
secauth: off 
threads: 0 
interface { 
ringnumber: 0 
# 内 部 网 络 地 址 段 
bindnetaddr: 10.0.0.0 
mcastaddr: 226.94.1.1 
mcastport: 5405 
} 
} 
logging { 
fileline: off 
to stderr: no 
to logfile: yes 
to syslog: yes 
logfile: /var/log/cluster/corosync.log 
debug: off 
timestamp: on 
logger subsys ( 
subsys: AMF 
debug: off 
} 


amf { 
mode: disabled 

















修改 日 志文 件 属性 ， 并 启动 服务 。 





chown -R hacluster. /var/log/cluster 
/etc/rc.d/init.d/corosync start 
chkconfig corosync on 





配置 好 Corosync 后 ， 通 过 命令 crm_mon 查 看 资源 状态 ， 可 以 看 到 host185、host188 两 个 节点 都 上 线 了 。 





crm mon 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
2 Nodes configured, 2 expected votes 

0 Resources configured 

Online: [ host185 host188 ] 





4.LVM 设 置 





因为 是 先 配置 DRBD， 然 后 配置 jSCS1， 再 划分 |v 给 虚拟 机 ， 在 虚拟 机 里 面 有 可 能 再 次 使 用 LVM ， 造 成 LVM on LVM 的 情况 ， 所 以 需要 配置 LVM ， 使 系统 不 扫描 /dev/vdb 上 的 LVM 信 息 。 同 时 为 了 保证 
虚拟 机 数据 一 致 性 ， 关 闭 LVM 缓 存 。 





vi /etc/lvm/lvm.conf 

# 修 改 以 下 内 容 

filter = [ "r|/dev/vdb.*|" ] 
write cache state = 0 





清空 已 有 缓存 。 





rm /etc/lvm/cache/* -r -f 














也 可 以 使 用 脚本 清空 缓存 ， 脚 本 内 容 如 下 : 








sed -i s/write cache state\ =\ l/write cache state\ =\ 0/g /etc/lvm/lvm.conf 
rm /etc/lvm/cache/* -r -f 





5.iSCSI 的 tgtd 服 务 配置 


主 节 点 上 基于 DRBD 创 建 的 块 设备 drbd1， 创 建 pv、vg。 





pvcreate /dev/drbdl 
vgcreate iscsivg01l /dev/drbdl 





安装 iSCSI 的 tgtd 服 务 。 





yum install scsi-target-utils.x86 64 -y 





启动 tgtd 服 务 ， 并 配置 开机 启动 。 





/etc/init.d/tgtd start 
chkconfig tgtd on 





6.Pacemaker 安 装配 置 


(1) crm 安 装 
































Pacemaker 是 Linux 上 的 集群 资源 管理 工具 ，CentOS 6.3 以 前 Pacemaker 配 置 工具 是 crm 命 令 ，CentOS 6.4 以 上 的 版 本 及 CentOS 7 系列 ， 配 置 工具 为 pcsi 
开源 爱好 者 开发 了 支持 CentOS 6.4 以 上 版 本 的 crm 版 本 ， 安 装 步骤 如 下 。 


。 因 为 笔者 习惯 使 用 crm 命 令 ， 有 第 三 方 











Bb 
4» 














1) 升级 autoconf 到 2.69 版 ， 下 载 、 解 压 、 编 译 就 可 以 了 。 





wget http://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gz 
tar -xvf autoconf-2.69.tar.gz 

./configure 

make && make install 





2) 安装 第 三 方 crm 版 本 。 





安装 很 简单 ，git 克 隆 后 编译 安装 就 可 以 了 。 





git clone https://github.com/crmsh/crmsh.git 
cd crmsh 

./autogen.sh 

./configure 

make 

make install 





(2) 下 载 iSCSITarget 的 Pacemaker 脚 本 


Pacemaker 的 理念 是 一 切 集群 配置 都 是 资源 ， 每 种 资源 都 是 脚本 ， 需 要 在 集群 中 切换 资源 的 时 候 ， 通 过 相应 的 脚本 切换 ， 脚 本 默认 路 径 是 /uswWlib/ocf/resource.d/。CentOs 6.6 安 装 的 Pacemaker 已 
经 不 包含 iSCSITarget 的 Pacemaker 脚 本 ， 需 要 手工 下 载 ， 并 放置 在 脚本 资源 目录 中 。 





git clone https://github.com/ClusterLabs/resource-agents 
cd resource-agents/heartbeat/ 
cp iSCSITarget /usr/lib/ocf/resource.d/heartbeat/ 





(3) 配置 集群 





1) 配置 集群 属性 。 





crm configure 

property stonith-enabled-"false" 

* 关闭 stonith，stonith 的 主要 作用 是 节点 故障 的 时 候 ， 通 过 ipmi 强 制 关 机 
property no-quorum-policy-"ignore" 

# 因 为 DRBD 只 有 两 个 节点 ， 关 闭 集群 的 投票 机 制 

property default-resource-stickiness="200" 

commit 





2) 创建 crm 资 源 p_drbd_iscsivg01， 基 于 DRBD 的 iscsivg01。 





crm(live)configuref 

primitive p drbd iscsivg01 ocf:linbit:drbd \ 
params drbd resource-"iscsivg0l" V 
op monitor interval-"29" role-"Master" V 
op monitor interval-"31" role-"Slave" 











创建 的 资源 p_drbd_iscsivg01，Master/Slave 使 得 DRBD 资 源 iscsivg01 在 两 个 节点 上 同步 。 








回 











3) 创建 ms_ drbd iscsivg01， 基 于 上 | 





primitive p drbd iscsivg01 ocf:linbit:drbd V 
params drbd resource-"iscsivg0l" V 
op monitor interval-"29" role-"Master" VN 
op monitor interval-"31" role-"Slave" 








4) 创建 crm 资 源 p_ip_drbd-M ， 配 置 浮动 |P 10.0.0.200, 





cm (live) configure# 

primitive p ip alicebob01 ocf:heartbeat:IPaddr2 \ 
params ip-"10.0.0.200" cidr netmask-"24" V 
op monitor interval-"10s" 7 





5) 创建 crm 资 源 p_lvm _iscsivg01， 定 义 vg。 





cm (live) configure# 

ms ms drbd iscsivg01 p drbd iscsivg01 \ 
meta master-max="1" master-node-max="1" clone-max="2" clone-node-max=" 
notify="true" 

colocation c_iscsivg0l_on_drbd inf: rg iscsivg01 ms drbd iscsivg01:Master 





























6) 创建 crm 资 源 p_target iscsivg01， 定 义 iSCSI 的 target， 要 登入 需要 使 用 用 户 名 iscsi， 密 码 为 1qa2ws3ed4rF。 





crm(live)configuref 

primitive p target iscsivg0l ocf:heartbeat:iscsiTarget V 
params iqn-"iqn.2001-04.com.example:storage.example.iscsivg0l" tid- 
incoming username-"iscsi" incoming password-"lga2ws3ed4rF" V 
op monitor interval-"10s" 

















如 果 要 用 tgt 的 话 ， 必 须 设 置 numberric target id (TID) 号 ， 全 局 唯一 就 可 以 。 











7) 添加 


un。 


创建 crm 资 源 p_lu_iscsivg01_lun1， 定 义 了 一 个 lv 的 lun1。 





cm (live) configure# 

primitive p lu iscsivg0l_lun1 ocf:heartbeat:iSCSILogicalUnit \ 
params target ign-"ign.2001-04.com.example:storage.example.iscsivg01" 
lun-"1" path-"/dev/iscsivgOl/LUN1" scsi id-"1234567890123456" \ 
op monitor interval-"10s" 2S 





8) 创建 资源 组 。 


创建 资源 组 group rg_iscsivg01， 使 iSCSI 联动 。 





crm(live)configuret 
group rg iscsivg0l p lvm iscsivg01 p target iscsivg01 p lu iscsivgOl lunl p lu 
iscsivg0l lun2 p ip alicebob0l V 7 bi ur T ub 
meta target-role-"Started" 
ms ms drbd iscsivg01 p drbd iscsivg01 \ 
meta master-max-"1" master-node-max-"1l" clone-max-"2" clone-node-max-"1" 
notify-" 
colocation c iscsivg01 on drbd inf: rg iscsivg01 ms drbd iscsivg01:Master 








9) 指定 资源 组 默认 在 DRBD 的 主 节点 。 


资源 组 默认 是 自动 托管 的 ， 没 有 排序 ， 需 要 指定 资源 组 在 DRBD 的 主 节 点 上 运行 。 





crm(live)configuref 
order o drbd before iscsivg01 inf: ms drbd iscsivg0l:promote rg iscsivg0l:start 
commit 





10) 清除 crm 的 配置 文件 的 方法 。 


如 果 要 清除 crm 的 配置 文件 ， 执 行 如 下 命令 : 





crm(live)configure # erase 
crm(live)configuret commit 





如 果 要 清除 Pacemaker 的 所 有 设置 ， 执 行 如 下 命令 : 





/etc/rc.d/init.d/corosync stop 
rm -f /var/lib/heartbeat/crm/* 
/etc/rc.d/init.d/corosync start 





11) 最 终 的 配置 。 





configure 
property stonith-enabled-"false" 
property no-quorum-policy-"i 





commit 





op monitor interval-"31" role-"Slave" 
| alicebob01 ocf:heartbeat:IPaddr2 \ 
"10.0.0.200" cidr netmask-"24" N 
op monitor interval-"10s" ~ 
primitive p lu iscsivg0l lunl ocf:heartbeat:iSCSILogicalUnit \ 
params target ign-"iqn.2001-04.com.example:storage.example.iscsivg01" 
lun-"1" path-"/dev/iscsivgOl/LUN1" scsi id-"1234567890123456" \ 
op monitor interval-"10s" T 
primitive p lvm iscsivg01 ocf:heartbeat:LVM \ 
params volgrpname="iscsivg01" \ 
op monitor interval="30s" 
primitive p target iscsivg0l ocf:heartbeat:iSCSITarget \ 
params iqgn-"iqn.2001-04.com.example:storage.example.iscsivg0l" tid="1" 
incoming username-"iscsi" incoming_password="1qa2ws3ed4rF" \ 
op monitor interval="10s" u 
group rg iscsivg01 p lvm iscsivg01 p target iscsivg01 p lu iscsivg01 lunl p lu. 
iscsivg0l lun2 p ip alicebobOl V 
meta target-role-"Started" 
ms ms drbd iscsivgO0l p drbd iscsivgOl \ 
meta master-max-"1" master-node-max-"1" clone-max-"2" clone-node-max-" 
notify-"true" 
colocation c iscsivg01 on drbd inf: rg iscsivg01 ms drbd iscsivg01:Master 
order o drbd before iscsivg01 inf: ms drbd iscsivg0l:promote rg iscsivg0l:start 
commit 














(4) 验证 配置 


通过 crm_mon 查 看 集群 状态 ， 可 以 看 到 两 个 节点 在 线 ，6 个 资源 启动 。 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


2 Nodes configured, 2 expected votes 
6 Resources configured 

Online: [ host185 host188 ] 
Resource Group: rg iscsivg01l 





p l1vm iscsivg0l (ocf::heartbeat:LVM): Started host185 
p target iscsivg01 (ocf::heartbeat:iSCSITarget): Started host185 
p lu iscsivgOl lunl (ocf: :heartbeat:iSCSILogicalUnit): Started host185 


p ip alicebob0l (ocf::heartbeat:IPaddr2): Started host185 
Master/Slave Set: ms drbd iscsivg01 [p drbd iscsivg01] 

Masters: [ host185 ] m 

Slaves: [ host188 ] 





关闭 host185， 查 看 host188 是 否 接管 。 





http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


2 Nodes configured, 2 expected votes 

6 Resources configured 

Online: [ host188 ] 

OFFLINE: [ host185 ] 

Master/Slave Set: ms drbd iscsivg0l [p drbd iscsivg01] 
Masters: [ host188 ] `~ 2 z 
Stopped: [ host185 ] 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





确实 是 生效 了 。 


7.KVM 计 算 节点 使 用 DRBD 集 群 

















(1) 安装 iSCSI 客户 端 管理 工 








在 宿主 机 上 通过 yum 命 令 安装 Linux 的 iSCSI 客户 端 。 





yum install iscsi-initiator-utils 








修改 配置 文件 /rtcViscsiyiscsid.conf， 将 iSCSI 用 户 密码 添加 上 去 。 





# To enable CHAP authentication set node.session.auth.authmethod 
# to CHAP. The default is None. 

node.session.auth.authmethod = CHAP 

1/8 I CHAPI HEH DU 

# To set a CHAP username and password for initiator 

# authentication by the target(s), uncomment the following lines: 
node.session.auth.username - iscsi 

node.session.auth.password = lqa2ws3ed4rF 

# 输 入 登录 iSCSI 服务 端的 用 户 、 密 码 





(2) 发 现 和 登录 iSCSI 服务 端 


通过 iscsiadm 命 令 发 现 和 登录 iSCSI 服务 端 。 





iscsiadm -m discovery -t st zs 10. A 0.200 
iscsiadm -m node -p 10.0.0.2 = 





登录 后 会 发 现 多 出 一 块 磁盘 。 





[root@host251 ~]# fdisk -1 /dev/sde 
Disk /dev/sde: 214.7 GB, 214748364800 bytes, 419430400 sectors 





然后 创建 Pv、vg、Iv 就 可 以 给 虚拟 机 使 用 了 。 
9.2.3 ”DRBD 在 KYM 虚拟 化 中 的 优化 方案 


DRBD 原 理 是 通过 网 络 的 磁盘 复制 ， 因 此 要 优化 就 是 磁盘 和 网 络 方面 ， 如 











图 9-2 所 示 。 在 生产 环境 使 用 ， 最 好 存储 网 络 、DRBD 同 步 网 络 、 生 产 网 络 能 够 独立 。 
(1) 磁盘 系统 优化 方案 


“ 使 用 尽量 多 的 磁盘 ， 磁 瘟 越 多 性 能 越 好 。 


“ 使 用 带电 池 的 RAID 卡 ， 带 电池 可 以 开启 RAID 卡 的 写 缓 在 ， 有 利于 提高 性 能 。 


集群 节点 1 drbd 同 步 网 络 ， 心 跳 线 










" 生产 网 络 
群 节点 3 


集群 节点 4 


DRBD 


DRBD 


图 9-2 KVM DRBD 高 可 用 方案 示意 图 
“ 使 用 SSD 固 态 硬盘 ，SSD 固 态 硬盘 可 以 有 效 地 提升 读 / 写 性 能 ， 建 议 读者 使 用 5.5.3 节 介绍 的 Flashcache 的 SSD 分 层 方案 ， 可 以 达到 性 能 和 成 本 比较 好 的 平衡 。 
“ 从 容错 、 性 能 角度 综合 考虑 ， 建 议 使 用 RAID 10 方 案 ， 并 配置 两 块 热 备 磁盘 。 
(2) 网 络 系统 优化 
- DRBD 同 步 使 用 单独 网 卡 ， 并 做 多 网 卡 绑 定 ， 使 用 mode=0 方 式 (具体 配置 请 参考 4.7 节 介绍 的 多 网 卡 绑 定 方法 ) 
“ 使 用 万 兆 网 卡 。 
- 修改 DRBD 同 步 网 卡 mtu 为 巨型 帧 MTU=9000。 


:iSCSI 网 络 使 用 单独 网 卡 ， 并 使 用 多 路 径 技术 〈 具 体 配置 可 以 参考 第 18 章 ) 。 


93 GlusterFS 在 KVM 虚 拟 化 中 的 应 用 


9.3.1 ”GlusterFS 介 绍 











GlusterFS (GNU ClusterFile System， 基 于 GNU 协 议 的 集群 文件 系统 ) 是 一 款 全 对 称 的 开源 分 布 式 文件 系统 ， 全 对 称 的 意思 是 GlusterFS 采 用 弹性 哈 希 算法 ， 没 有 中 心 节点 ， 所 有 的 节点 全 部 平等 。 
GlusterFS 最 大 的 特定 是 安装 配置 方便 ， 并 且 稳 定性 非常 好 ， 可 以 轻松 地 达到 PB 级 的 容量 ， 数 和 干 个 节点 。GlusterFS 于 2011 年 10 月 被 红 帽 公司 收购 ， 随 后 红 帽 公 司 推出 了 基于 GlusterFSs 的 Red Hat Storage 
Server。 因 为 GlusterFS 和 KVM 都 属于 红 帽 公司 ，GlusterFS 被 收购 之 后 ， 增 加 了 针对 KVM 的 许多 特性 ， 并 且 获 得 了 QEMU 的 原生 支持 。 红 帽 公司 发 起 的 开源 云 管 理 平台 oVirt 也 和 GlusterFS 之 间 相 互 支持 
(oVirt 在 第 13 章 有 介绍 ) 。 



































1.GlusterFS 特 性 
GlusterFS 特 性 如 下 : 

“ 全 对 称 架构 ， 部 署 使 用 简单 。 
' 弹性 伸缩 。 

: 支持 Infiniband。 

“ 支持 通过 SSL 证 书 加 密 的 数据 同步 。 
“ 支持 卷 级 别 的 压缩。 

- 支持 FUSE。 

:支持 SMB。 

“ 支持 QEMU。 

“支持 NFS。 

支持 Hadoop。 


“ 与 OVirt 深 度 整 合 。 





* 支持 OpenStack。 








GlusterFS 协 议 层 面 支持 IP 和 RDMA。RDMA (Remote Direct Memory Access) 技术 全 称 为 远程 直接 数据 存 取 ， 是 为 了 解决 网 络 传输 中 服务 器 端 数据 处 理 的 延迟 而 产生 的 。RDMA 通 过 网 络 把 资料 直 
接 传 入 计算 机 的 存储 区 ， 将 数据 从 一 个 系统 快速 移动 到 远程 系统 存储 器 中 ， 而 不 对 操作 系统 造成 任何 影响 ， 这 样 就 很 少 用 到 计算 机 的 处 理 功能 。 它 消除 了 外 部 存储 器 复制 和 文本 交换 操作 ， 因 而 能 解放 内 存 
带宽 和 CPU 周期 用 于 改进 应 用 系统 性 能 。 




























































































RDMA 最 初 是 为 Infiniband 互 连 开发 的 技术 。 它 在 无 须 扩展 缓存 、 干 扰 CPU 或 呼叫 OS 内 核 的 情况 下 直接 在 两 个 系统 间 进 行 主 数据 转换 ， 因 此 有 助 于 缩短 延 时 ， 提 高 系统 间 数 据 传输 性 能 。 


























InfiniBand 架 构 是 一 种 支持 多 并 发 链接 的 “转换 线 绕 ”技术 ， 在 这 种 技术 中 ， 每 种 链接 都 可 以 达到 2.5GB/s 的 运行 速度 。 这 种 架构 在 一 个 链接 的 时 候 速 度 是 500MB/s，4 个 链接 的 时 候 速 度 是 2GB/s，12 
个 链接 的 时 候 速度 可 以 达到 6GB/s。 








InfiniBand 技 术 不 是 用 于 一 般 网 络 连 接 的 ， 它 的 主要 设计 目的 是 针对 服务 器 端的 连接 问题 。 因 此 ，InfiniBand 技 术 被 应 用 于 服务 器 与 服务 器 、 服 务 器 和 存储 设备 以 及 服务 器 和 网 络 之 间 的 通信 。 





2.GlusterFS 的 几 个 重要 概 : 





ep 


* brick: GlusterFS 的 基本 单元 ， 以 节点 服务 器 目录 的 形式 展现 。 

DAR: 多 个 brick 的 逻辑 组 合 。 

- Metadata: 元 数据 ， 关 于 数据 的 数据 ， 用 于 描述 文件 、 目 录 等 的 信息 。 

“ FUSE: Filesystem in Userspace， 用 户 空间 的 文件 系统 ， 内 核 的 特性 ， 在 用 户 态 创建 文件 系统 ， 而 不 需要 修改 内 核 。 

' GlusterFS 服 务 器 节点 : 数据 存储 服务 器 ，GlusterFS 只 有 两 种 服务 器 角色 ， 一 种 是 数据 存储 服务 器 ， 一 种 是 客户 端 ， 两 种 角色 也 可 以 在 一 台 物 理 服务 器 上 。 
UEM: 使 用 GlusterFS 存 储 服务 的 服务 器 。 

* Glusterd: GlusterFS 服 务 ， 所 有 存储 节点 需要 运行 。 
3.GlusterFS 支 持 的 卷 类 型 
GlusterFS 支 持 如 下 几 种 卷 类 型 。 


(1) 分 布 卷 





分 布 卷 也 称 为 哈 希 卷 ， 如 图 9-3 所 示 ， 多 个 文件 在 多 个 brick 上 使 用 哈 希 算法 随机 存放 。 











Distributed Volume 


server1:/exp1 server2:/exp2 


Mount Point 














图 9-3 分布 卷 架构 图 (KÁ T GlusterES E Zr A 35) 





“ 使 用 场景 : 大 量 小 文件 。 
“优点: 读 / 写 性 能 好 。 
“ 缺点 : 使 用 分 布 卷 ， 存 储 的 弹性 扩展 和 宛 余 ， 需 要 其 他 层面 的 软件 或 者 硬件 解决 。 如 果 服务 器 或 者 磁盘 故障 ， 会 导致 分 布 在 服务 器 或 者 磁盘 上 的 数据 丢失 。 


(2) 复制 卷 


























多 个 文件 在 多 个 brick 上 复制 多 份 ， 如 图 9-4 所 示 ，brick 的 数目 要 与 需要 复制 的 份 数 相等 ， 并 且 brick 最 好 是 在 不 同 的 服务 器 上 。 























“ 使 用 场景 : 对 可 靠 性 和 读 性 能 要 求 高 的 场景 。 
“优点: 读 性 能 好 。 

: 缺点 : 写 性 能 差 ， 用 磁盘 空间 换取 可 靠 性 。 
(3) RPS 


条 带 卷 将 文件 分 成 条 带 ， 存 放 在 多 个 brick 上 ， 默 认 条 带 大 小 128KB， 条 带 卷 主要 存放 大 文件 。 
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图 9-4 复制 卷 架 构 











: 使 用 场景 : 大 文件 。 
“优点: 用 条 带 的 方法 使 大 文件 能 够 存储 。 
' 缺点 : 可 靠 性 不 高 ， 有 brick 故 障 ， 数 据 全 部 丢失 。 


(4) 分 布 条 带 卷 





(来 自 于 GlusterFS 官 方 网 站 ) 





分 布 条 带 卷 在 一 个 集群 内 部 ， 如 图 9-5 所 示 ， 多 个 文件 在 多 个 节点 哈 希 存储 ， 每 个 文件 再 分 条 带 在 多 个 brick 上 存储 。 














Striped 
volume 0 


Maunt Point 





EMAR: 读 / 写 性 能 高 的 大 量 大 文件 场景 。 
“优点: 高 并 发 支持 ， 存 储 池 可 以 弹性 扩展 。 
DR: RALAR, TERS. 


分 布 条 带 卷 需要 的 brick 数 量 是 条 带 数 的 倍数 。 


(5) 分 布 复制 卷 





分 布 复制 卷 如 图 9-6 所 示 ， 多 个 文件 在 多 个 节点 哈 希 存储 ， 在 多 个 brick 复 制 多 份 存储 。 
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(来 自 于 GlusterFS 官 方 网 站 ) 
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图 9-6 “分布 复制 卷 架构 图 (来 自 于 GlusterFS 官 方 网 站 ) 











“ 使 用 场景 : 大 量 文件 读 和 可 靠 性 要 求 高 的 场景 。 
“优点: 存储 空间 弹性 扩展 ， 高 可 用 ， 读 性 能 高 。 
“ 缺点 : 牺牲 存储 空间 ， 写 性 能 差 。 


分 布 复制 卷 需要 brick 的 数量 是 复制 数 的 倍数 。 另 外 ， 对 brick 的 选择 影响 数据 的 安全 性 ， 同 一 台 服 务 器 有 多 个 brick 的 时 候 ， 数 据 复制 应 该 配置 在 多 台 服 务 器 之 间 进 行 ， 而 不 是 在 同一 台 服 务 器 内 部 之 间 
进行 ， 否 则 当 服 务 器 发 生 故 障 的 时 候 ， 有 可 能 会 造成 数据 丢失 。 


(6) 分 布 条 带 复制 卷 





分 布 条 带 复制 卷 如 图 9-7 所 示 ， 多 个 文件 在 多 个 节点 哈 希 存储 ， 存 储 的 时 候 划 分 条 带 ， 并 且 保 存 多 份 。 
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图 9-7 278 CF LA ARH GR B GlusterFS'E Zr I 25) 
“使 用 场景 : 多 份 大 文件 并 且 对 可 靠 性 要 求 高 的 场景 ， 虚 拟 机 的 镜像 存储 就 是 一 个 典型 场景 。 
“优点: 读 、 写 、 可 靠 性 比较 均衡 。 
“ 缺点 : 牺牲 磁盘 空间 和 写 性 能 。 
分 布 条 带 复制 卷 需要 的 birck 数 量 是 条 带 数 和 复制 数 的 乘积 倍数 。 


(7) 条 带 复制 郑 





条 带 复制 卷 ， 一 个 大 文件 存储 的 时 候 划分 条 带 ， 并 且 保存 多 份 。 
“ 使 用 场景 : 超大 文件 ， 并 且 对 可 靠 性 要 求 高 的 场景 。 

优点: 使 大 文件 能 够 存储 ， 并 且 获 得 可 靠 性 。 

缺点 : 需要 更 大 的 磁盘 空间 ， 写 性 能 差 。 

条 带 复制 卷 需要 的 birck 数 量 是 条 带 数 和 复制 数 的 乘积 。 


(8) 分 散 郑 




















分 散 卷 基于 纠 错 码 ， 它 基于 条 带 编码 ， 添 加 宛 余 编码 ， 并 分 布 到 多 个 brick 上 存储 。 分 散 卷 以 最 小 的 磁盘 空间 消耗 实现 元 余 ， 并 且 宛 余 级 别 可 以 配置 。 
“ 应 用 场景 : 对 见 余 和 磁盘 空间 都 敏感 的 场景。 
“优点; 在 宛 余 和 磁盘 空间 上 取得 平衡 。 


“ 缺点 : 需要 消耗 额外 的 资源 进行 验证 ， 对 性 能 也 有 一 定 影响 。 

















关于 分 散 卷 见 余 ， 分 散 卷 在 创建 的 时 候 可 以 设置 元 余数 ， 元 余数 取决 于 希望 有 多 少 brick 出 现 问题 的 时 候 不 引起 数据 丢失 。 允 余数 决定 了 可 用 空间 ， 可 以 使 用 下 面 的 公式 计算 : 














可 用 空间 =brick 大 小 X (brick 数 量 - 宛 余 级 别 ) 




















所 有 的 brick 需 要 相同 的 容量 ， 如 果 不 同 ， 当 最 小 的 brick 写 满 数据 的 时 候 ， 其 他 brick 也 就 不 能 写 数 据 。 





























如 果 是 3 个 brick 宛 余数 是 1， 那 么 有 66.7% 的 可 用 空间 ; 如 果 是 10 个 brick， 那 么 有 90% 的 空间 可 以 使 用 。 但 是 3 个 brick 的 情况 安全 性 要 比 10 个 brick 的 高 ， 因 为 随 着 brick 增 加 ，birck 出 现 问题 的 风险 要 加 


























(9) 分 布 分 散 卷 





分 布 分 散 卷 ， 多 个 文件 在 多 个 节点 上 哈 希 分 布 存储 ， 存 储 的 时 候 基于 条 带 编码 并 有 宛 余 度 设置 。 
“应 用 场景 : 对 宛 余 和 磁盘 空间 都 敏感 的 场景 。 


“优点: 在 宛 余 、 磁 盘 空 间 、 读 / 写 性 能 上 取得 平衡 。 


“缺点: 需要 消耗 额外 的 资源 进行 验证 ， 对 性 能 也 有 一 定 影响 。 


9.32 ”GlusterFS 集 群 搭建 与 使 用 


GIusterFS 集 群 搭建 主要 分 为 以 下 几 个 步骤 : 

“ 存储 节点 、 存 储 目 录 准 备 。 

* GlusterFS 服 务 安装 。 

“ 集群 配置 。 

“ 卷 创建 及 启用 。 

“ 客户 端 挂 载 。 

下 面 分 别 介绍 一 下 每 个 步骤 的 操作 方法 。 

1. 环 境 准备 

环境 准备 如 9.1 节 介绍 ， 另 外 6 台 存 储 虚 拟 机 每 台 挂 载 SSD 上 的 30GB 的 |v 3 个 ， 在 每 台 虚拟 机 上 都 可 以 看 到 3 个 30GB 的 磁盘 ， 分 别 为 vdb、vdc、vdd。 
2.gluster 目 录 准 备 


格式 化 vdb、vdc、vdd 并 分 别 挂 载 到 /export/vdb、/export/vdc、/export/vdd。 以 vdb 上 的 操作 为 例 ， 在 每 个 节点 上 都 需要 执行 如 下 命令 : 





mkfs.xfs -i size-512 /dev/vdb 
mkdir -p /export/vdb && mount /dev/vdb /export/vdb 
echo "/dev/vdb /export/vdb xfs defaults 0 0" >> /etc/fstab 





执行 完成 ， 通 过 df 命令 查看 效果 如 下 : 





[root@host183 ~]# df -h 





Filesystem Size Used Avail Use$ Mounted on 
/dev/vdd 30G 33M 30G 1% /export/vdd 
/dev/vdc 30G 33M 30G 1$ /export/vdc 
/dev/vdb 30G 33M 30G 1$ /export/vdb 
3. 安 装 GlusterFS 





可 以 通过 yum 命 令 直接 安装 ， 命 令 如 下 : 




















yum install gluster* -y 





yum 安 装 的 版 本 是 3.4， 不 是 最 新 版 本 ， 可 以 下 载 官网 最 新 版 本 的 rpm 包 ， 然 后 安装 。 





wget -1 1 -nd -nc -r -A.rpm \ 

http: //download.gluster.org/pub/gluster/glusterfs/3.6/LATEST/CentOS/epel- 
7Server/x86 64 

yum install gluster* -y 





安装 完成 启动 glusterd 服 务 。 





service glusterd start 





4 配置 GlusterFS 集 群 


通过 在 第 一 台 存 储 节点 服务 器 上 执行 gluster peer probe 命 令 组 建 集群 。 





[rootehost183 ~]# gluster peer probe host184 
peer probe: success. 

[root@host183 ~]# gluster peer probe host185 
peer probe: success. 

[root@host183 ~]# gluster peer probe host186 





GlusterFS 的 配置 主要 通过 gluster 命 令 操作 ， 直 接 执行 命令 加 参数 可 以 操作 。 输 入 gluster 命 令 按 Enter 键 ,进入 GlusterFS 的 配置 界面 。 输 入 help 得 到 可 以 执行 的 命令 。 命 令 可 以 分 为 两 个 大 类 : 一 类 是 
卷 管理 ， 包 括 卷 的 创建 、 删 除 、 快 照 、 状 态 查看 等 ; 一 类 是 集群 节点 管理 ， 包 括 节点 添加 、 强 制 退 出 集群 、 状 态 查看 等 。 








gluster> help 





集群 状态 查看 。 





gluster> Peer status 

Number of Peers: 3 

Hostname: host184 

Uuid: 137e25eb-3886-4c79-aebd-7488505076ed 
State: Peer in Cluster (Connected) 
Hostname: host185 

Uuid: 22ac500b-7284-4704-5807-e7d710e35f48 
State: Peer in Cluster (Connected) 
Hostname: hostl186 

Uuid: 9f66f4fc-079b-48c0-87af-641a7652e399 
State: Peer in Cluster (Connected) 





5. 节 点 管理 
1) 添加 新 的 节点 。 


在 host187、host188 节 点 上 启动 glusterd 服 务 。 





service glusterd start 





然后 在 初始 节点 上 执行 探测 命令 。 





gluster> peer probe host187 
peer probe: success. 
gluster> peer probe host188 
peer probe: success. 





查看 节点 状态 。 





gluster> peer stat 

Number of Peers: 5 

Hostname: host184 

Uuid: 137e25eb-3886-4c79-aebd-7488505076ed 
State: Peer in Cluster (Connected) 
Hostname: host185 

Uuid: 22ac500b-7284-4704-5807-e7d710e35f48 
State: Peer in Cluster (Connected) 
Hostname: host186 

Uuid: 9f66f4fc-079b-48c0-87af-641a7652e399 
State: Peer in Cluster (Connected) 
Hostname: host187 

Uuid: d9e78eff-ff52-4e58-9524-16996339335a 
State: Peer in Cluster (Connected) 
Hostname: host188 

Uuid: bcd2b2a7-0918-4c78-9cid-7d45cdf10f43 
State: Peer in Cluster (Connected) 





2) 删除 节点 。 


强制 host188 退 出 集群 。 





gluster> peer detach host188 
peer detach: success 





可 以 通过 peer probe 再 将 host188 添 加 进 集群 ， 这 样 在 有 存储 节点 故障 的 时 候 ， 可 以 通过 删除 再 添加 的 方式 进行 修复 。 


6. 创 建 卷 


1) 创建 分 布 卷 ， 不 指明 卷 类 型 ， 默 认 是 分 布 卷 。 





gluster» volume create dis vol host183:/export/vdc/dv1 host184:/export/vdc/dv1 
host185:/export/vdc/dvl 
volume create: dis vol: success: please start the volume to access data 





查看 卷 信息 。 





gluster> volume info 

Volume Name: dis vol 

Type: Distribute 

Volume ID: 53bcf7bb-d1b0-40af-af15-da84643b6dc0 
Status: Created 

Number of Bricks: 3 
Transport-type: tcp 

Bricks: 

Brickl: host183:/export/vdc/dvl 
Brick2: host184:/export/vdc/dvl 
Brick3: host185:/export/vdc/dv1l 





2) 创建 复制 卷 。 


通过 参数 replica 指 定 创建 复制 卷 ， 复 制 卷 的 份 数 和 brick 数 要 相等 。 下 面 的 命令 每 份 数据 存 3 份 到 3 个 brick 上 。 








gluster» volume create rep vol replica 3 host183:/export/vdc/rv2 host184:/export/ 
vdc/rv2 host185:/export/vdc/rv2 





3) 创建 条 带 卷 。 


通过 参数 stripe 指 定 创建 条 带 卷 。 下 面 的 命令 将 文件 分 条 带 存放 到 3 个 brick 上 。 








gluster» volume create str vol stripe 3 host183:/export/vdc/sv3 host184:/export/ 
vdc/sv3 host185:/export/vdc/sv3 





4) 创建 分 布 条 带 卷 。 


通过 参数 stripe 和 brick 数 量 来 创建 分 布 条 带 卷 ，brick 数 量 是 条 带 参数 的 倍数 。 下 面 的 命令 创建 一 个 有 8 个 brick 的 分 布 条 带 卷 。 








gluster» volume create dir str vol stripe 4  host183:/export/vdc/dsv4 host184:/ 
export/vdc/dsv4 host185:/export/vdc/dsv4 host186:/export/vdc/dsv4 host187:/export/ 
vdc/dsv4 host188:/export/vdc/dsv4 host183:/export/vdd/dsv4  host184:/export/vdd/dsv4 
volume create: dir str vol: success: please start the volume to access data 





查看 一 下 卷 信息 。 





gluster> volume info dir str vol 

Volume Name: dir str vol 

Type: Distributed-Stripe 42 4X 

Volume ID: 6279525d-3b38-4152-9b7e-c67f9dd2fbe6 
Status: Created 

Number of Bricks: 2x 4 - 8 

# 文 件 存储 的 时 候 在 4 个 brick 上 划分 条 带 存储 ， 多 个 文件 在 两 组 brick 上 哈 希 分 布 
Transport-type: tcp 

Bricks: 

Brickl: host183:/export/vdc/dsv4 

Brick2: host184:/export/vdc/dsv4 

Brick3: host185:/export/vdc/dsv4 

Brick4: host186:/export/vdc/dsv4 

Brick5: host187:/export/vdc/dsv4 

Brick6: host188:/export/vdc/dsv4 


Brick7: host183:/export/vdd/dsv4 
Brick8: host184:/export/vdd/dsv4 





5) 创建 分 布 复制 卷 。 


通过 参数 replica 和 brick 数 量 来 创建 分 布 复制 卷 ，brick 数 量 是 replica 参 数 的 倍数 。 下 面 的 命令 创建 一 个 有 8 个 brick 的 分 布 复制 卷 。 





gluster» volume create dir rep vol replica 2 host183:/export/vdc/drv5 host184:/ 
export/vdc/drv5 host185:/export/vdc/drv5 host186:/export/vdc/drv5 host187:/export/ 
vdc/drv5 host188:/export/vdc/drv5 host183:/export/vdd/drv5  host184:/export/vdd/drv5 





查看 一 下 卷 信息 。 





gluster> volume info dir rep vol 

Volume Name: dir rep vol ~ 

Type: Distributed-Replicate # 分 布 复 制 卷 

Volume ID: ba927421-7£38-4e58-bf9e-2a3460a07617 

Status: Created 

Number of Bricks: 4 x 2- 8 

## 多 个 文件 存储 的 时 候 在 4 个 brick 上 哈 希 存储 ， 每 个 文件 存储 2 份 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 








6) 创建 分 布 条 带 复制 卷 。 


通过 stripe、replica 参 数 及 brick 数 量 创建 分 布 条 带 复制 卷 ，brick 的 数量 需要 是 stripe、replica 乘 积 的 倍数 。 下 面 的 命令 创建 一 个 有 8 个 brick 的 分 布 条 带 复制 卷 。 





gluster» volume create dis str rep vol stripe 2 replica 2 host183:/export/vdc/ 
dsrv6 host184:/export/vdc/dsrv6 host185:/export/vdc/dsrv6 host186:/export/vdc/dsrv6 
host187:/export/vdc/dsrv6 host188:/export/vdc/dsrv6 host183:/export/vdd/dsrv6 
host184:/export/vdd/dsrv6 





查看 一 下 卷 信息 。 





gluster> volume info dis str rep vol 

Volume Name: dis str rep vol ` 

Type: Distributed-Striped-Replicate # 分 布 条 带 复制 卷 

Volume ID: 76f63aea-fe7b-437a-b40d-ffc738ca20ee 

Status: Created 

Number of Bricks: 2x 2x 2- 8 

# 多 个 文件 存储 的 时 候 在 4 组 brick 上 哈 希 存储 ， 每 个 文件 存储 2 份 ， 并 且 划 分 条 带 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





7) 创建 条 带 复制 卷 。 





通过 stripe、replica 参 数 及 brick 数 量 创建 分 布 条 带 复制 卷 ，brick 的 数量 需要 是 stripe、replica 的 乘积 。 下 面 的 命令 创建 一 个 有 4 个 brick 的 分 布 条 带 复制 卷 。 





gluster» volume create str rep vol stripe 2 replica 2 host183:/export/vdc/ 
srv7 host184:/export/vdc/srv7 host185:/export/vdc/srv7 host186:/export/vdc/srv?7 





8) 创建 分 散 卷 。 














分 散 卷 需要 指定 匈 余 brick 数 ， 宛 余数 要 小 于 brick 数 量 。 下 面 的 命令 创建 一 个 4 个 birck 宛 余 的 分 散 数 ， 最 多 允许 1 个 brick 故 障 而 不 丢失 数据 。 














gluster> volume create disperse vol disperse 4 host183:/export/vdc/d8 host184:/ 
export/vdc/d8 host185:/export/vdc/d8 host186:/export/vdc/d8 

There isn't an optimal redundancy value for this configuration. Do you want to 
create the volume with redundancy 1 (y/n) y 

volume create: disperse vol: success: please start the volume to access data 





查看 分 散 卷 的 信息 。 





gluster> volume info disperse vol 

Volume Name: disperse vol 

Type: Disperse T 

Volume ID: 9676d60d-590f-42c0-8d76-97bb63c5ef9d 

Status: Created 

Number of Bricks: 1 x (3 + 1) = 4 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Transport-type: tcp 





9) 创建 分 布 分 散 卷 。 


分 散 卷 需要 指定 分 散 数 和 宛 余数 ， 如 果 分 散 数 大 于 brick 数 ， 就 是 分 布 分 散 卷 ， 元 余数 也 可 以 不 指定 ，GlusterFS 有 默认 的 算法 。 下 面 的 命令 创建 一 个 5 个 birck 分 布 分 散 卷 ， 最 多 人 允许 2 个 brick 故 障 而 不 丢 





gluster» volume create disperse vol3 disperse 3 host183:/export/vdc/d10 host184:/ 
export/vdc/dl0 host185:/export/vdc/d10 host186:/export/vdc/d10 host187:/export/vdc/ 
d10 host188:/export/vdc/d10 

volume create: disperse vol3: success: please start the volume to access data 





查看 分 布 分 散 卷 信息 。 





gluster> volume info disperse vol3 

Volume Name: disperse vol3 ` 

Type: Distributed-Disperse 

Volume ID: a8abbf71-5b83-417e-9826-ea1b3e612814 

Status: Created 

Number of Bricks: 2x (2*1) =6 

Transport-type: tcp 

Bricks: 

Brickl: host183:/export/vdc/d10 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





7. 卷 管理 


1) 删除 卷 操作 。 





gluster» volume delete rep vol 


Deleting volume will erase all information about the volume. Do you want to 


continue? (y/n) y 
volume delete: rep vol: success 





2) 启动 卷 操作 。 





gluster volume start 卷 名 称 





3) 通过 gluster 协 议 挂 载 卷 。 





mkdir -p /gfs 
mount -t glusterfs host183:/test-volume /gfs 








自动 挂 载 ， 添 加 新 到 fstab， 因 为 是 网 络 文件 系统 ， 需 要 添加 _nerdev 参 数 。 














Vim fstab 
serverl:/test-volume /mnt/glusterfs glusterfs defaults, netdev 0 0 





4) 使 用 nfs 方 式 挂 载 。 








mount -t nfs host183:/kvm-test /mnt 


df -h 
Filesystem Size Used Avail Use$ Mounted on 
host183:/kvm-test 180G  12G 169G 7$ /mnt 





9.3.3 ”GlusterFS 在 KVM 虚拟 化 中 的 应 用 








建议 在 生产 环境 中 使 用 分 布 条 带 复制 卷 ， 并 且 每 个 虚拟 机 镜像 文件 保存 3 份 ， 


























QEMU 直 接 调用 ; 一 种 是 先 将 卷 挂 载 到 宿主 机 ， 然 后 像 宿 主机 本 地 存储 一 样 使 








1. 为 宿主 机 创建 分 布 条 带 复制 郑 





下 面 的 命令 创建 具有 18 个 brick 的 分 布 条 带 复制 卷 ， 用 于 虚拟 机 的 镜像 创建 。 











这 样 在 性 能 、 稳 定性 、 安 全 性 方面 能 达到 比较 好 的 平衡 。GlusterFS 在 KVM 虚 拟 化 中 的 应 用 有 两 种 方法 : 一 种 方法 是 通过 

















gluster> volume create kvm-test stripe 3 replica 3 host183:/export/vdb/kl host184:/ 
export/vdb/kl host185:/export/vdb/kl host186:/export/vdb/kl  host187:/export/vdb/ 
kl host188:/export/vdb/kl host183:/export/vdc/kl host184:/export/vdc/kl host185:/ 
export/vdc/kl host186:/export/vdc/kl  host187:/export/vdc/kl host188:/export/vdc/kl 
host183:/export/vdd/kl host184:/export/vdd/kl host185:/export/vdd/kl host186:/ 


export/vdd/kl  host187:/export/vdd/kl host188:/export/vdd/kl 





提示 


GlusterFS 的 条 带 、 分 布 和 brick 添 加 时 候 的 顺序 有 关系 ， 为 了 尽量 容错 ， 添 加 的 时 候 ， 应 将 不 同 服务 器 上 的 brick 交 叉 添加 。 











将 卷 启 动 ， 就 可 以 使 用 了 。 








gluster» volume start kvm-test 





j&istgluster» volume status 命 令 可 以 查看 卷 状 态 。 





gluster> volume status kvm-test 
Status of volume: kvm-test 


Gluster process Port Online Pid 

Brick host183:/export/vdb/kl 49153 x 32298 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Brick host188:/export/vdd/k1l 49154 Dd 31873 

NFS Server on localhost 2049 A 32332 

Self-heal Daemon on localhost N/A Y 32340 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
NFS Server on host186 2049 bd 32148 

Self-heal Daemon on host186 N/A Y 32156 


Task Status of Volume kvm-test 
There are no active volume tasks 





提示 
要 使 用 的 宿主 机 一 定 要 能 通过 域名 解析 glusterd 服 务 器 节点 。 


2. 通 过 QEMU 使 用 GlusterFS 





(1) 通过 qemu-img 创 建 镜像 














QEMU 从 1.3 版 本 开始 就 支持 GlusterFS5， 用 qemu-img create 命 令 指 明 使 











Gluster 协 议 、TCP 方 式 、GlusterFS 服 务 器 地 址 端口 、GlusterFS 郑 名称、 需要 创建 虚拟 机 镜像 的 名 称 就 可 以 ， 命 令 如 下 : 





/usr/bin/qemu-img create gluster*tcp://10.0.0.183:24007/kvm-test/gfs-kvm 


100G -f qcow2 


Formatting 'glusterttcp://10.0.0.183:24007/kvm-test/gfs-kvm', fmt-qcow2 
5ize-107374182400 encryption-off cluster size-65536 lazy refcounts-off 





同样 ， 通 过 qemu-img info 命 令 可 以 查看 一 下 镜像 信息 。 





/usr/bin/qemu-img info gluster-tcp://10.0.0.183:24007/kwvm-test/gfs-kvm 


image: glusterttcp://10.0.0.183:24007/kvm-test/gfs-kvm 
file format: qcow2 
virtual size: 100G (107374182400 bytes) 
disk size: 194K 
cluster size: 65536 
Format specific information: 
compat: 1.1 
lazy refcounts: false 





(2) 通过 qemu-kvm 命 令 启动 虚拟 机 





通过 qemu-kvm 命 令 可 以 直接 启动 虚拟 机 。 




















/usr/libexec/qemu-kvm --drive \ 
file-gluster://10.0.0.183:24007/kvm-test/gfs-kvm 
VNC server running on '::1:5900' 





(3) 通过 Libvirt 使 用 虚拟 机 


要 通过 Libvirt 使 用 虚拟 机 ， 需 要 配置 GlusterFS。 





修改 etc/glusterfs/glusterd.vol， 添 加 以 下 内 容 ， 然 后 重启 Glusterd 服 务 。 





option rpc-auth-allow-insecure on 








打开 卷 server.allow-insecure 属 性 。 





gluster volume set kvm-test server.allow-insecure on 





设置 卷 UID 和 GID。 





gluster volume set kvm-test storage.owner-uid 107 
gluster volume set kvm-test storage.owner-gid 107 





停止 卷 再 启动 卷 。 





gluster volume stop kvm-test 
gluster volume start kvm-test 





检查 以 上 配置 是 否 生效 。 





gluster> volume info kvm-test 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


Options Reconfigured: 
storage.owner-gid: 107 
storage.owner-uid: 107 
server.allow-insecure: on 





然后 修改 虚拟 机 的 .xml 文 件 中 的 磁盘 文件 。 





«disk type-'network' device-'disk'» 
# 磁 盘 格式 为 network 
<driver name-'qemu' type-'qcow2' cache-'none'/» 
<source protocol-'gluster' name-'kvm-test/gfs-kvm'» 
# 指 定 协议 为 Gluster， 指 定 卷 名 称 和 镜像 名 称 
<host name-'host183' port-'24007'/» 
# 指 定 GLusterd 服 务 ， 主 机 名 和 IP 都 可 以 ， 指 定 TCP 端 口 
</source> 
<target dev='vda' bus='virtio'/> 
<alias name='virtio-disk0'/> 


<address type='pci' domain='0x0000' bus='0x00' slot='0x06' function='0x0'/> 


</disk> 





然后 就 可 以 使 用 虚拟 机 了 。 





3. 通 过 fuse 使 用 GlusterFS 


fuse 方 式 使 用 非常 简单 ， 通 过 mount 命 令 挂 载 就 可 以 。 





mount -t glusterfs host183:/kvm-test /mnt 
ls /mnt 
gfs-kvm 








可 以 看 到 通过 qemu-img 创 建 的 镜像 ， 通 过 df 命令 ， 可 以 看 到 挂 载 的 分 区 。 





[x] 





df -h 
Filesystem Size Used Avail Use% Mounted on 
host183:/kvm-test 180G 194M 180G 1$ /mnt 





要 使 用 镜像 ， 和 普通 的 本 地 存储 挂 载 一 模 一 样 ， 这 里 就 不 介绍 了 。 


外 二 





在 生产 环境 中 建议 通过 fuse 的 方式 使 用 GlusteftFS，QEMU 直 接 调用 GlusterFS 的 方式 虽然 性 能 好 一 些 ， 但 是 不 同 的 GlusterFS 版 本 、QEMU 版 本 、 文 件 系 统 之 间 经 常会 遇 到 兼容 性 问题 。 


9.34 ”GlusterFS 在 KVM 虚 拟 化 中 的 优化 方案 





GlusterFS 是 基于 网 络 的 分 布 式 文件 系统 ， 因 此 要 优化 就 是 磁盘 和 网 络 方面 。GlusterFS 高 可 
建议 是 万 兆 或 者 多 网 卡 绑 定 。 





(1) 磁盘 系统 优化 方案 


“ 使 用 尽量 多 的 磁盘 ， 总 体 性 能 可 以 随 着 磁盘 增加 而 线性 增长 。 
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9-8 所 示 ， 由 多 台 存 储 服务 器 组 成 GlusterFS 存 储 集群 ， 供 计算 节点 调用 





， 存 储 服务 器 网 络 


A 4 网 卡 绑 定 | 


VM 
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图 9-8 ”GlusterFS 高 可 用 方案 示意 图 
: 因为 GlusterFS 可 以 在 应 用 层面 容错 ， 使 用 单 块 磁盘 ， 不 作 RAID， 可 以 在 容量 、 可 靠 性 、 性 能 之 间 取 得 平衡 。 
- 使 用 SSD 固 态 硬盘 ，SSD 固 态 硬盘 可 以 有 效 地 提升 读 / 写 性 能 。 
(2) 网 络 系统 优化 


同 DRBD， 详 见 9.2.3 节 。 


9.4 Sheepdog 在 KVM 中 的 应 用 








Sheepdog 是 一 款 分 布 式 对 象 存储 系统 ， 最 早 是 日 本 NTT 公 司 发 起 的 开源 项 目 ， 国 内 的 淘宝 内 核 团队 也 贡献 了 大 量 的 代码 。Sheepdog 是 为 KVM 虚 拟 化 量 身 定做 的 分 布 式 文件 系统 ， 针 对 KVM 做 了 深入 
的 优化 。Sheepdog 的 特点 是 使 用 方便 、 代 码 简单 ， 可 以 非常 容易 地 扩展 到 数 干 个 节点 。 



































9.4.1 Sheepdog 介 绍 


1.Sheepdog 的 特性 

Sheepdog 是 完全 对 称 的 架构 ， 没 有 元 数据 服务 器 ， 每 个 节点 完全 平等 ， 主 要 特性 如 下 。 

“ 只 有 两 个 服务 ， 部 署 管理 方便 。 

“ 性 能 和 容量 可 以 线性 伸缩 : 当 容 量 或 者 性 能 需要 的 时 候 ，Sheepdog 可 以 通过 增加 节点 线性 地 进行 扩展 。 

“ 没有 单 点 故障 : 任何 一 个 节点 故障 ， 数 据 都 不 会 丢失 。 

: 管理 方便 : 没有 专门 的 管理 角色 ， 当 新 的 服务 器 增加 并 启动 Sheepdog 服 务 的 时 候 ，Sheepdog 可 以 自动 探测 并 加 入 存储 系统 。 
| QEMU 原 生 支 持 ， 支 持 所 有 的 QEMU 镜 像 。 

“ 灵活 可 选 的 元 余 级 别 ， 可 以 基于 集群 、 节 点 的 多 份 镜像 策略 。 

“ 支持 镜像 快照 、 克 隆 、 大 小 调整 、 大 小 预 分 配 、 宛 余 策略 调整 、 备 份 。 


“ 支持 集群 级 别 的 快照 。 


“ 支持 虚拟 机 在 线 迁移 。 

“ 支持 专用 的 网 卡 用 于 数据 同步 。 

+ 被 OpenStack 支 持 。 

:支持 iSCSI、NBD、 块 设备 方式 提供 存储 服务 。 
2.Sheepdog 的 组 件 


Sheepdog 包 含 以 下 组 件 。 











1) 对 象 存储 : Sheepdog 服 务 (也 称 为 sheep 服 务 ) 是 为 QEMU 创 建 的 分 布 式 对 象 存储 系统 。 对 象 存储 是 固定 大 小 的 数据 并 且 有 全 局 唯一 的 标识 。 通 过 全 局 唯一 的 标识 可 以 读 取 、 写 入 、 创 建 、 删 除 对 
象 存储 。 存 储 对 象 由 网 关 和 对 象 管理 组 成 。 每 个 对 象 存储 有 64 字 节 的 唯一 标识 ， 并 且 在 多 节点 复制 。 












































2) 网 关 : 网 关 从 QEMU 驱 动 接收 MO 请 求 ， 通 过 哈 希 算法 计算 目标 节点 ， 并 将 MO 请 求 发 送 回 目标 节点 。 














3) 对 象 管理 : 对 象 管理 网 关 接收 I/O 请 求 ， 并 在 自己 的 本 地 磁盘 执行 读 / 写 操作 。 
4) 集群 管理 : 集群 管理 管理 节点 成 员 ， 探 测 失败 添加 的 节点 ， 并 且 探 知 节点 的 变化 ， 一 些 操作 需要 在 所 有 节点 之 间 同 步 ， 比 如 镜像 创建 、 快 照 等 。 


5) QEMU 块 驱动 : QEMU 块 驱动 将 虚拟 机 的 镜像 切割 为 固定 的 块 大 小 ， 默 认 大 小 是 4MB， 并 且 通 过 网 关 将 数据 块 存储 在 存储 对 象 上 。QEMU 块 驱动 不 关心 如 何 存储 对 象 ， 对 象 存储 系统 负责 管理 如 何 
存储 对 象 。 


3. 对 象 的 类 型 


Sheepdog 对 象 有 4 种 类 型 。 





1) 数据 对 象 : 包含 虚拟 机 实际 的 数据 。 虚 拟 磁盘 镜像 被 分 为 固定 大 小 的 数据 镜像 。Sheepdog 客 户 端 归 根 结 底 访问 的 是 这 些 镜像 。 











2) vdi 对 象 : 虚拟 磁盘 的 元 数据 ， 比 如 磁盘 名 字 、 磁 盘 尺 寸 、 创 建 时 间 、 数 据 对 象 ID 等 。 











3) 虚拟 机 状态 对 象 : 存储 运行 虚拟 机 镜像 状态 ， 在 管理 员 创建 在 线 快照 的 时 候 使 用 。 





— 




















4) vdi 属 性 镜像 : 可 以 存储 每 个 vdi 的 属性 ， 通 过 vdi 属 性 镜像 存储 ， 属 性 是 key-value 形 式 。 





9.4.2 ”Sheepdog 搭 建 方法 及 在 KYM 中 的 应 用 
Sheepdog 的 配置 过 程 分 为 以 下 几 个 步骤 。 
Sheepdog 节 点 上 的 配置 : 

“ 配置 hostname。 
. 配置 corosync。 
. 编译 Sheepdog。 


宿主 机 节点 上 的 配置 : 





- 编译 QEMU。 
“ 创建 虚拟 机 ， 挂 载 Ssheepdog 文 件 系 统 。 


下 面 介绍 一 下 每 个 步骤 的 配置 方法 。 


.环境 准备 





环境 准备 参见 9.1 节 介绍 ， 另 外 6 台 存 储 虚 拟 机 每 台 挂 载 SSD 上 的 90GB 的 lv。 


2. 安 装配 置 corosync 








corosync 可 以 直接 通过 yum 命 令 安装 ， 也 可 以 使 用 编译 安装 。 通 过 yum 命 令 安装 ， 需 要 安装 CentOSs 7 的 epel 源 。 笔 者 通过 编译 方式 安装 ， 安 装 很 简单 ， 下 载 编 译 就 可 以 。 



































wget http://corosync.org/download/corosync-2.3.4.tar.gz 
tar -zxvf corosync-2.3.4.tar.gz 

cd corosync-2.3.4/ 

./configure 

make 

make install 





安装 之 后 配置 corosync.conf 文 件 ， 文 件 内 容 可 以 参考 Sheepdog 官 网 wiki， 关 于 corosync 的 配置 地 址 是 : https:;//github.com/Sheepgog/Sheepdog/wiki/Corosync-config, FARZI 





corosync.conf 文 件 内 容 。 


cat «« EOF »/etc/corosync/corosync.conf 
cat /etc/corosync/corosync.conf 
compatibility: whitetank 
totem ( 
version: 2 
secauth: off 
threads: 0 
# Note, fail recv const is only needed if you're 
# having problems with corosync crashing under 
# heavy Sheepdog traffic. This crash is due to 
# delayed/resent/misordered multicast packets. 
# fail recv const: 5000 
interface { . 
ringnumber: 0 
bindnetaddr: 10.0.0.0 
# 注 意 这 里 是 所 有 节点 网 段 地 址 ， 不 是 节点 IP 地 址 
mcastaddr: 226.94.1.1 
mcastport: 5405 


} 
logging { 
fileline: off 
to stderr: no 
to logfile: yes 
to syslog: yes 
# the pathname of the log file 
logfile: /var/log/cluster/corosync.log 
debug: off 
timestamp: on 
logger subsys { 


subsys: AMF 
debug: off 
} 
} 
amf { 


mode: disabled 


$ 
EOF 





然后 启动 corosync 服 务 。 





/etc/init.d/corosync restart 





查看 日 志 ， 如 果 能 看 到 各 个 节点 之 间 的 通信 信息 ， 则 说 明 配 置 成 功 。 





tail -f /var/log/cluster/corosync.log 

Jan 14 19:34:42 [25485] host185 corosync notice [TOTEM ] A new membership 
(10.0.0.185:188) was formed. Members joined: 169109177 

Jan 14 19:34:42 [25485] host185 corosync notice [MAIN ] Completed service 
synchronization, ready to provide service. 

Jan 14 19:34:42 [25485] host185 corosync notice [TOTEM ] A new membership 
(10.0.0.183:192) was formed. Members joined: 169109175 169109176 

Jan 14 19:34:42 [25485] host185 corosync notice [MAIN ] Completed service 
synchronization, ready to provide service. 





3.Sheepdog 安 装 


Sheepdog 默 认 文 件 存储 目录 是 /vaVlib/Sheepdog， 创 建 目录 并 将 第 二 块 硬盘 挂 载 到 这 个 目录 。 








mkdir -p /var/lib/Sheepdog 
mkfs.xfs /dev/sdb 
mount /dev/sdb /var/lib/Sheepdog 





Sheepdog 安 装 通过 源 代 码 ， 笔 者 安装 的 版 本 是 0.9.50。 





wget https://github.com/sheepdog/sheepdog/archive/master.zip 
unzip master.zip 

cd /root/sheepdog-master 

./autogen.sh 

./configure 

make install 




















也 可 以 编译 成 rpm 包 ， 方 便 批量 安装 ， 使 用 make rpm 命 令 就 可 以 。 











make rpm 





启动 服务 : 





Sheep /var/lib/Sheepdog 





sheep 命 令 是 Sheepdog 服 务 的 管理 命令 ， 主 要 参数 如 下 。 
“ -b，--bindaddr 一 一 绑 定 特定 的 IP 或 者 接口 。 


< -Cc，--Cluster 一 一 指定 特定 的 集群 底层 驱动 ， 上 默认 是 corosync。 


外 二 


Sheepdog 的 底层 集群 驱动 有 两 个 : 一 个 是 corosync，corosync 是 全 对 称 结构 ， 无 中 心 节点 ; 还 有 一 个 是 zookeeper， 使 用 zookeeper 需 要 先 搭建 zookeeper 集 群 ， 然 后 sheep 服 务 通 过 IP 端 口 调用 zookeeper 集 群 服 
务 。corosync 在 15 节 点 以 下 的 情况 支持 得 很 好 ，zookeeper 可 以 支持 到 上 千 个 节点 。 


: -D, --directio 





直接 I/O ， 绕 过 文件 系统 缓存 。 





--g, -gateway 网 关 ， 使 本 节 成 为 网 关 模式 。 
“ -i，--ioaddr 一 一 同步 Sheebdog 数 据 时 使 用 指定 的 网 卡 ， 默 认 关 闭 。 


0p, —port——48 4E TCP38$ 0, 253A 7£7000. 








*-z, -—Zzone 


指定 zone ID ， 默 认 根据 服务 监听 地 址 判断 。 通 过 zone 可 以 建立 多 个 Sheepdog 集 群 。 


4 配置 Sheepdog 集 群 





集群 管理 主要 通过 dog 命 令 (早期 使 用 的 是 collie 命 令 ， 目 前 也 可 以 使 用 ) 。dog 命 令 常用 参数 如 下 。 














“ vdi check: 检查 修复 镜像 。 
* vdi create 创建 镜像 。 
* vdi snapshot 创建 镜像 快照 。 





镜像 克隆 。 


* vdi clone 





删除 镜像 。 


* vdi delete 





* vdi rollback: 回 滚 镜像 到 指定 快照 。 





列 出 所 有 镜像 。 


"vdi list 





修改 镜像 大 小 。 


* vdi resize 














* vdi alter-copy 设置 镜像 宛 余 级 别 。 
- vdi lock 锁定 或 者 解锁 镜像 。 
- node kill- 删除 节点 。 


- node list 一 一 列 出 所 有 节点 。 





* node info 一 一 显示 节点 


luster info 一 一 显示 集群 信息 。 


uster format 一 一 创建 集群 。 





停止 集群 。 


uster shutdown 


uster snapshot 一 一 创建 快照 、 回 滚 集群 快照 。 





检查 修复 集群 。 


luster check: 





luster alter-copy 一 一 修改 集群 宛 余 级 别 。 


o 


(1) Sheepdog 集 群 管理 


创建 一 个 Sheepdog 集 群 ， 默 认 郊 余 策 略 是 3 份 。 





dog cluster format --copies-3 





copies 是 镜像 元 余数 ， 也 可 以 在 后 台 创建 。 





collie cluster format -b farm --copies-3 





查看 集群 节点 状态 。 





dog node list 





Id Host:Port V-Nodes Zone 

0 10.0.0.183:7000 128 3076920330 

1 10.0.0.184:7000 128 3093697546 

2 10.0.0.185:7000 128 3110474762 
查看 集群 信息 。 





dog cluster info 


Cluster status: running, auto-recovery enabled 


Cluster created at Wed Jan 14 19:52:21 2015 
Epoch Time Version 
2015-01-14 19:52:21 i 


[10.0.0.183:7000, 10.0.0.184:7000, 


10.0.0.185:7000] 





停止 集群 。 





collie cluster shutdown 





添加 节点 。 








节点 添加 很 简单 ， 在 新 加 的 节点 上 启动 sheep 服 务 就 可 以 ，Sheepdog 会 自动 通过 。 笔 者 又 启动 了 3 个 节点 的 sheep 服 务 ， 可 以 看 到 节点 达到 了 6 个 。 














dog node list 


Id  Host:Port V-Nodes Zone 
0 10.0.0.183:7000 128 3076920330 
1 10.0.0.184:7000 128 3093697546 
2 10.0.0.185:7000 128 3110474762 
3 10.0.0.186:7000 128 3127251978 
4 10.0.0.187:7000 128 3144029194 
B: 10.0.0.188:7000 128 3160806410 





查看 集群 信息 ， 可 以 看 到 集群 是 通过 版 本 来 标记 节 


点 变化 的 。 





[root@host188 ~]# dog cluster info 


Cluster status: running, auto-recovery enabled 


Cluster created at Wed Jan 14 19:52:21 2015 


Epoch Time Version 
2015-01-14 21:46:09 14 [10.0.0.183:7000, 
10.0.0.186:7000, 10.0.0.187:7000, 10.0.0.188: 


10.0.0.184:7000, 
7000] 


10.0.0.185:7000, 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





2015-01-14 21:32:02 3 [10.0.0.183:7000] 
2015-01-14 20:41:53 2 [10.0.0.183:7000, 
2015-01-14 19:52:21 1 [10.0.0.183:7000, 


10.0.0.184:7000] 
10.0.0.184:7000, 


10.0.0.185:7000] 





通过 dog node info 命 令 可 以 查看 每 个 节点 的 空间 使 














情况 。 











dog node info 


Id Size Used Avail Use% 
0 45 GB 11 GB 33 GB 25% 
1 44 GB 12 GB 33 GB 25% 
2 45 GB 11 GB 34 GB 25$ 
3 45 GB 9.1 GB 36 GB 20% 
4 45 GB 11 GB 34 GB 23$ 
5 46 GB 6.4 GB 39 GB 14$ 


Total | 269 GB 60 GB 209GB 22$ 
Total virtual image size 63 GB 





通过 dog node stat 命 令 可 以 查看 集群 读 / 写 速度 。 





dog node stat 

Request Active Total Write Read Remove Flush A 
Client 0 6 6 0 0 0 0. 
Peer 0 0 0 0 0 0 0 





通过 dog node kill 命 令 可 以 删除 节点 。 





dog node kill 5 





(2) Sheepdog 镜 像 管理 


创建 名 为 test1、 大 小 为 20GB 的 镜像 。 





[rootGhost183 ~]# dog vdi create testl 20G 





列 出 所 有 镜像 。 





rootGhost183 ~]# dog vdi list 

Name Id Size Used Shared Creation time VDI id Copies Tag 
Block Size Shift 

testl 0 20 GB 0.0 MB 0.0 MB 2015-01-14 20:00 fd32fc 3 22 





因为 QEMU 原 生 支持 Sheepdog， 所 以 通过 qemu-img 命 令 也 可 以 创建 Sheepdog 镜 像 。 并 将 创建 好 的 镜像 导入 到 Sheepdog 集 群 中 。 





rootGhost183 ~]# qemu-img convert test3 Sheepgog:test3 

rootGhost183 ~]# qemu-img create -f qcow2 test3 22G 

Formatting 'test3', fmt-qcow2 size-23622320128 encryption-off cluster _ 
Size-65536 lazy refcounts-off 

rootGhost183 ~]# dog vdi list 





Name Id Size Used Shared Creation time VDI id Copies Tag 
Block Size Shift 

testl 0 20 GB 0.0 MB 0.0 MB 2015-01-14 20:00 fd32fc 3 22 
test3 0 22 GB 22 GB 0.0 MB 2015-01-14 20:02 fd3662 3 22 





通过 qemu-img 命 令 创建 镜像 快照 。 





qemu-img snapshot -c testlsl Sheepgog:testl 








同样 ，qemu-img 的 其 他 镜像 管理 命令 Sheepdog 都 支持 ， 这 里 就 不 详细 介绍 了 。 
5. 宿 主机 使 用 Sheepdog 


(1) 编译 QEMU 





因为 CentOS 7 默认 携带 的 QEMU 编 译 的 时 候 没有 开启 对 Sheepdog 的 支持 ， 要 使 用 Sheepdog， 需 要 重新 编译 QEMU。 


QEMU 安 装 如 下 : 





wget http://wiki.qemu-project.org/download/qemu-2.2.0.tar.bz2 

tar -xvf qemu-2.2.0.tar.bz2 

cd qemu-2.2.0/ 

ls 

./configure --block-drv-rw-whitelist=qcow2, raw, file,host_device, nbd, iSCSI, gluster, 
rbd, Sheepgog 

make 

make install 





编译 的 时 候 需 要 加 上 如 下 参数 : --block-drv-rw-whitelist=qcow2, raw, file, host device, nbd, iSCSI, gluster, rbd, Sheepdog, 
(2) 宿主 机 上 通过 QEMU 使 用 Sheepdog 


将 宿主 机 镜像 远程 转 到 Sheepdog。 


否则 使 用 的 时 候 会 出 现 “Driver'sheepdogis not whitelisted” 的 错误 。 





/usr/local/bin/qemu-img convert centos66.qcow2 \ 
Sheepgog:10.0.0.183:7000:centos66-189 





查看 Sheepdog 镜 像 信 息 。 





qemu-img info Sheepgog:10.0.0.183:7000:test3 
image: Sheepgog:10.0.0.183:7000:test3 

file format: raw 

virtual size: 22G (23622320128 bytes) 

disk size: 22G 





通过 qemu 命 令 ， 使 用 镜像 启动 虚拟 机 。 





/usr/local/bin/qemu-system-x86 64 -name Sheepdogtest -smp \ 
4,sockets-4,cores-l,threads-l -vnc :10 --drive \ 
file-Sheepgog:10.0.0.183:7000:centos66-189 





如 果 遇 到 如 下 错误 : 





qemu-system-x86 64: --drive file-Sheepgog:10.0.0.183:7000:centos66-189: could 
not open disk image Sheepgog:10.0.0.183:7000:centos66-189: cannot get vdi info, 


VDI is already locked, centos66-189 0 





在 sheepdog 节 点 上 取消 镜像 锁定 ， 这 是 一 个 bug， 待 修复 。 





dog vdi lock unlock centos66-189 








(3) 宿主 机 上 通过 Libvirt 使 用 Sheepdog 


通过 Libvirt 使 用 Sheepdog 镜 像 ，.xm| 配 置 文件 如 下 : 





«disk type-'network' device-'disk'» 
Xdriver name-'gemu'/» 
«source protocol-'Sheepdog name-'centos66-189'» 
Xhostname-'10.0.0.183' portz'7000'/» 
</source> 
<target dev='vda' bus='virtio'/> 
</disk> 





说 明 : 通过 source protocol 关 键 字 指 定 使 用 Sheepdog， 通 过 name 关 键 字 指定 镜像 名 称 为 centos66-189， 通 过 hostname 关 键 字 指定 Sheepdog 集 群 地 址 ， 通 过 port 关 键 字 指定 集群 服务 端口 。 
o. 


Sheepdog 理 念 非常 好 ， 架 构 简 单 ， 这 几 年 在 不 断 地 发 展 ， 但 是 目前 成 熟 度 还 不 够 ， 和 暂时 不 建议 读者 在 生产 环境 中 使 用 。 


9.5 ”MooseFS 在 KVM 中 的 应 用 














MooseFS 在 KVM 虚 拟 化 中 最 合适 的 应 用 是 镜像 存储 ， 它 是 OpenStack 指 定 的 镜像 存储 方式 之 一 。 





9.5.1 MooseFS 介 绍 











MooseFS 是 一 款 支持 容错 的 基于 网 络 的 分 布 式 文件 系统 ， 它 将 数据 分 布 到 多 台 物 理 机 上 ， 但 是 对 外 提供 统一 接口 ，MFS 提 供 标准 的 类 UNIX 文 件 系统 : 








“ 高 可 用 ， 数 据 多 份 存储 。 

“ 动态 扩展 ， 可 以 在 线 添 加 机 器 和 磁盘 。 

“ 文件 可 以 在 一 定 周期 内 回收 ， 类 似 回收 站 的 功能 。 

“ 支持 在 线 文件 快照 。 
MooseFS 有 4 种 角色 。 

“ 管理 节点 (masterserver) : 一 台 单一 的 服务 器 ， 存 储 文件 系统 元 数据 。 

“ 数据 节点 (chunk server) : 多 台 服 务 器 ， 存 储 数据 。 

“ 元 数据 备份 服务 器 (metalogger serve) : 可 以 有 多 台 ， 存 储 元 数据 日 志 ， 并 且 周 期 性 地 从 管理 节点 下 载 元 数据 文件 ， 可 以 在 管理 节点 故障 的 时 候 提示 为 管理 节点 。 
“ 客户 端 : 挂 载 使 用 MFS 文 件 系 统 的 服务 器 。 挂 载 使 用 mfsmount 命 令 ，mfsmount 基 于 FUSE 接 口 ， 所 以 MFS 支 持 许多 文件 系统 ， 如 Linux、FreeBSD、MacOS X. 


元 数据 存储 在 管理 节点 的 内 存 中 ， 并 周期 性 地 刷 盘 ， 并 定时 同步 到 日 志 节 点 。 数 据 节 点 将 存储 空间 分 片 ， 每 片 称 为 chunk， 最 大 是 64MB， 每 个 chunk 在 数据 节点 上 就 是 一 个 文件 。 








MooseFS 在 2.0 版 本 以 前 ， 管 理 节 点 因为 是 一 台 ， 一 直 是 性 能 和 可 靠 性 的 瓶颈 。2.0 分 为 社区 版 (Community Edition, CE) 和 专业 版 (Professional) 。 专 业 版 支持 多 台 管 理 节点 同时 工作 和 容错 , 但 
是 要 收费 ; 社区 版 开源 免费 ， 但 还 是 只 支持 一 个 管理 节点 。 

















MooseFS 读 性 能 要 好 于 写 性 能 ， 可 靠 性 受 管理 节点 的 限制 ， 在 KVM 虚 拟 化 中 用 于 镜像 的 存储 ，MooseFs 也 是 Openstack 推 荐 的 镜像 存储 文件 系统 。 














9.5.2 ”MFS 搭 建 方法 及 在 KVM 虚 拟 化 中 的 应 用 


1.MFS 搭 建 方法 








演示 环境 还 是 9.2 节 介绍 的 环境 ， 本 书 介 绍 社区 版 的 安装 方法 ， 具 体 的 搭建 方法 如 下 。 

















(1) 角色 划分 
服务 器 角色 划分 如 表 9-2 所 示 ， 每 个 存储 节点 挂 载 90GB 的 第 二 块 磁盘 ， 在 虚拟 机 中 看 到 的 是 /dev/vdb。 


表 9-2 MES 搭 建 服 务 器 角色 划分 


xo 0m MFS 系统 角色 
分 布 式 文件 系统 存储 节点 虚拟 机 1 Master 服务 器 

分 布 式 文件 系统 存储 节点 虚拟 机 2 Metadatelog 服务 器 
分 布 式 文件 系统 存储 节点 虚拟 机 3 Chunk 服务 器 


宿主 机 2 


分 布 式 文件 系 


(2) 安装 yum 源 


安装 MooseFS 官 方 的 yum 源 。 


£ 3uJ 
分 布 式 文件 系统 存储 节点 虚拟 机 4 
分 布 式 文件 系统 存储 节点 虚拟 机 5 
分 布 式 文件 系统 存储 节点 虚拟 机 6 


统 挂 载 虚拟 机 


= 


MFS 系统 角色 
Chunk 服务 天 
Chunk 服务 需 
Chunk hki ki 
Client 服务 大 
不 使 用 





curl http://ppa.moosefs.com/stable/yum/MooseFS.repo »/etc/yum.repos.d/MooseFS.repo 


curl http://ppa.moosefs.com/stable/yum/RPM-GPG-KEY-MooseFS »/etc/pki/rpm-gpg/ 


RPM-GPG-KEY-MooseFS 





(3) 管理 节点 Master 安 装配 置 


1) 组 件 安装 。 























host183 作 管理 节点 Master 服 务 器 ， 通 过 安装 命令 行 工具 ， 管 理 节点 组 件 。 





yum install moosefs-ce-cli moosefs-ce-master moosefs-ce-cgi 





2) 修改 配置 文件 。 


修改 /etc/mfs/mfsexports.cfg。 





[root@host183 mfs]# vim mfsexports.cfg 


# 添 加 以 下 内 容 , 允许 访问 的 客户 端 TP 
10.0.0.0/8 


/ 
"mfsexports.cfg" 67L, 4101C written 


re,alldir,maproot-0 





配置 Master 程 序 开 机 启动 。 





chkconfig mfsmaster on 





3) 创建 元 数据 文件 。 





[rootGhost183 mfs]# cd /var/lib/mfs/ 


[root@host183 mfs]# ls -1 
total 4 


-rwxr--r-- 1 mfs mfs 8 Dec 24 07:25 metadata.mfs.empty 
[root@host183 mfs]# cp metadata.mfs.empty metadata.mfs 





4) 启动 服务 。 





[root@host183 mfs]# systemctl start mfsmaster.service 





(4) cgi 服 务 器 安装 


cg 是 MooseFS 的 一 个 Web 界 面 监控 程序 ， 可 以 看 到 集群 状态 和 性 能 。cgi 可 以 生 


1) 安装 cg 组件 ， 启 动 服务 。 











通过 yum 命 令 直 接 安装 ， 然 后 启动 服务 ， 并 配置 服务 开机 自 启 动 。 




















独 使 用 服务 器 ， 也 可 以 和 其 他 节点 复 用 ， 笔 者 复 用 管理 节点 host183。 





yum install moosefs-ce-cgiserv 


/etc/init.d/mfscgiserv start 
chkconfig mfscgiserv on 





2) 访问 Web。 





通过 浏览 器 访问 IP 地 址 加 9425 端 














， 然 后 输入 管理 节点 的 IP 地 址 ， 就 可 以 看 到 Web 界 面 ， 如 


9-9 所 示 ， 可 以 看 到 集群 非常 详细 的 情况 。 














http://10.0.0.183:9425/mfs.cgi?masterhost=10.0.0.183 





chunk deletions (per minute) 7 


(5) Metalog 服 务 器 安装 








使 用 host184 作 为 数据 日 志 服 务 器 。 








1) 服务 安装 。 














通过 yum 命 令 安装 数据 日 志 服务 组 件 。 











yum install moosefs-ce-metalogger 





2) 配置 并 启动 服务 。 


编辑 /etc/mfs/mfsmetalogger.cfg 文 件 ， 添 加 管理 节点 地 址 。 


Disks + Exports + 


图 9-9 


MEFS 的 Web 监 控 界面 


Mounts + 


Operations + 








vim mfsmetalogger.cfg 
# 添 加 以 下 内 容 
MASTER HOST = host183 





启动 服务 ， 并 注册 为 开机 启动 。 


[root@host184 mfs]# /etc/init.d/mfsmetalogger start 
Starting mfsmetalogger (via systemctl): [ OK ] 
[root@host184 mfs]# chkconfig mfsmetalogger on 


(6) 存储 节点 (chunk server) 服务 器 安装 








使 用 host185、host186、host 187、host188 作 为 存储 节点 (chunk server) 。 





1) 安装 存储 组 件 。 





通过 yum 命 令 安装 就 可 以 。 


yum install moosefs-ce-chunkserver 





2) 编辑 配置 文件 。 


编辑 /etc/mfs/mfschunkserver.cfg， 加 入 管理 节点 的 地 址 。 





Vim mfschunkserver.cfg 
# 添 加 下 面 的 内 容 
MASTER HOST = host183 





3) 配置 存储 。 











格式 化 /dev/vdb 为 xfs 文 件 系 统 ， 创 建 /mfs 目 录 ， 并 挂 载 /dev/vdb 到 /mfs。 











mkfs.xfs -f -i size=512 /dev/vdb 
mkdir -p /mfs 





mount /dev/vdb /mfs 





4) 编辑 介质 配置 文件 。 


编辑 存储 介质 配置 文件 /etc/mfs/mfshdd.cfg， 添 加 存储 目录 。 





vim mfshdd.cfg 
pes 刚才 挂 载 的 /mfs 








5) 修改 /mfs 的 用 户 属性 ， 启 动 存 储 服务 。 








(7) 命令 行 管理 























通过 MFS 的 命令 行 管理 工具 可 以 管理 查看 集群 状态 。 比 如 查看 整个 集群 状态 ， 使 用 如 下 命令 : 











可 以 看 到 非常 详细 的 集群 状态 ， 图 9-10 是 其 中 的 一 部 分 信息 。 











Master Info 
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avail space 

trash space 

trash files 
sustained space 
sustained files 

all fs objects 
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图 9-10 ”MFS 集 群 状态 部 分 信息 








如 图 9-11 所 示 ， 通 过 mfscli-S-SCS 命 令 ， 可 以 查看 数据 存储 节点 信 








ir 
Fui 


[root&host183 ~]# mfscli -5 -SCS -H hosti183 


'regular' hdd space 
Jtem c ME ee 
used total 


'marked for removal' hdd space 


十 
host185 
host186 
host187 
host188 


.7 GiB | 92 GiB 
.7 GiB | 92 GiB 
.5 GiB | 62 GiB 
.5 GiB | 62 GiB 
M cau sucus 


十 十 
| e 
| | 
[ | 
十 十 
| | 
| | 
| | 
| | 
* 十 


+ 一 一 一 一 十 一 二 
+ 一 一 一 一 十 一 十 一 十 
+ 一 一 一 一 + 一 + 
+ 一 一 一 一 十 一 十 





图 9-11 存储 节点 信息 








命令 行 工具 还 可 以 移 除 、 维 护 管理 数据 节点 ， 具 体 的 操作 请 读者 阅读 命令 帮助 信息 。 














(8) 客户 端 使 








1) 安装 客户 端 组 件 。 











在 要 使 用 MooseFS 的 客户 端 安装 客户 端 组 件 。 











yum install moosefs-ce-client 





2) 通过 mfsmount 挂 载 。 


通过 mfsmount 挂 载 MooseFS 到 /mnt， 通 过 -H 参 数 指定 管理 节点 地 址 。 





mfsmount -H host183 /mnt 





通过 df-h 命 令 查看 挂 载 情况 。 





[root@host251 ~]# df -h 


Filesystem Size Used Avail Use$ Mounted on 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
host183:9421 307G 0 307G 0% /mnt 








可 以 看 到 管理 节点 作为 一 个 网 络 存储 文件 系统 ， 已 经 挂 载 到 /mnt 下 





回 











3) 配置 文件 存储 份 数 。 











通过 mfssetgoal 命 令 可 设置 文件 存储 的 份 数 。MooseFS 非 常 灵活 ， 不 同 的 目录 可 以 设置 不 同 的 级 别 。 设 置 /mnt/mfs 目 录 下 的 文件 写 3 份 : 





[rootülocalhost ~]# mfssetgoal -r 3 /mnt/mfs 











通过 mfsgetgoal 命 令 可 以 得 到 目录 的 文件 存储 份 数 。 

















[rootélocalhost ~]# mfsgetgoal /mnt/mfs 
/mnt/mfs: 3 





外 二 


MooseFS 黑 认 文件 写 3 份 ， 大 部 分 分 布 式 文件 系统 默认 的 文件 都 是 写 3 份 。 


(9) MooseFS 容 灾 











MooseFSs 社 区 版 只 有 一 个 管理 节点 ， 当 管理 节点 故障 的 时 候 ， 整 个 服务 就 会 停止 。 存 储 日 志 服务 器 实际 是 管理 节点 的 数据 备份 ， 通 过 存储 日 志 服 务 可 以 恢复 管理 节点 的 数据 ， 操 作 步 又 如 下 。 





























1) 重新 部 署 管理 节点 。 








重新 安装 一 台 服 务 器 作为 管理 节点 ， 可 以 和 上 故障 服务 器 同 主机 名 ， 也 可 以 是 新 的 主机 名 和 IP。 








将 存储 日 志 服 务 器 的 备份 数据 传输 到 新 的 管理 节点 ， 通 过 scp 命 令 ， 将 /varlib/mfs 目 录 下 的 数据 从 存储 日 志 服务 器 传 到 新 的 管理 节点 相同 目录 下 。 在 存储 日 志 服务 器 上 执行 如 下 命令 : 











scp /var/lib/mfs/* host183: /var/lib/mfs/ 





3) 恢复 数据 。 


在 新 的 管理 节点 上 执行 如 下 命令 ， 可 以 自动 恢复 数据 。 





mfsmaster -a 








启动 管理 节点 服务 ， 如 果 主机 名 、IP 有 变化 ， 修 改 一 下 每 个 存储 节点 的 管理 节点 配置 信息 ， 重 启 存储 服务 ， 集 群 就 恢复 了 。 











2.MFS 在 KVM 虚 拟 化 中 的 使 用 





























MFS 因 为 读 性 能 好 ， 管 理 节点 单 点 ， 非 常 适 合作 虚拟 化 的 镜像 存储 文件 系统 ， 只 需要 在 每 台 宿 主机 上 安装 客户 端 ， 挂 载 就 可 以 使 用 。 
































但 是 MFS 不 适合 用 于 虚拟 化 的 后 端 存 储 ， 主 要 是 因为 管理 节点 是 单 点 ， 出 现 问题 的 时 候 ， 会 影响 整个 虚拟 化 系统 的 可 用 性 。 



























































实际 使 用 的 时 候 ， 管 理 节点 服务 器 尽量 选用 可 靠 性 高 、 内 存 大 的 服务 器 。 存 储 节点 支持 容错 ， 可 以 使 用 硬盘 大 、 可 靠 性 相对 比较 差 的 淘汰 服务 器 ， 以 达到 利 旧 的 目的 。 


























9.6 “本章 小 结 











本 章 介绍 了 DRBD、GlusterFS、Sheepdog、MooseFS 在 KVM 虚 拟 化 中 的 使 用 方法 。DRBD、GlusterFS、MooseFS 几 种 分 布 式 文件 系统 ， 稳 定性 都 非常 好 ， 在 生产 环境 中 使 用 ， 最 大 的 挑战 是 性 能 ， 














解决 性 能 最 好 的 办 法 就 是 SSD 和 万 兆 网 络 。 











当前 最 热 的 分 布 式 文件 系统 是 Ceph，Ceph 架 构 更 健壮 ， 社 区 非常 活跃 ， 已 经 成 熟 ， 下 一 章 将 为 读者 详细 介绍 Ceph 及 其 在 KVM 虚拟 化 中 的 使 用 方法 。 

















第 10 章 ”Ceph 在 KVM 虚 拟 化 中 的 应 用 与 故障 处 理 


在 第 9 章 介绍 了 DRBD、GlusterFS、Sheepdog、MooseFS 等 几 种 分 布 式 文件 系统 之 后 ， 本 章 将 介绍 另外 一 种 分 布 式 文件 系统 Ceph， 分 别 从 Ceph 的 架构 、 配 置 、 功 能 、 性 能 ， 以 及 Ceph 在 KVM 中 的 

















、Ceph 的 一 些 常见 故障 处 理 等 方面 介绍 Ceph。 















































本 书 之 所 以 会 用 一 章 的 内 容 来 单独 介绍 Ceph， 主 要 原因 有 两 点 。 








第 一 ， 出 于 对 热门 技术 的 热爱 。 








从 架构 上 讲 ，Ceph 的 架构 设计 均衡 ， 没 有 明显 的 缺点 ， 想 必 读 者 已 经 发 现 近年 来 各 大 IT 报道 中 无 数 次 将 Ceph、 统 一 存储 、 云 计算 联系 一 起 ， 这 点 很 值得 思考 和 重视 。 


第 二 ，Ceph 提 供 了 对 象 存储 、 块 存储 及 文件 存储 的 统一 存储 模型 。 
































Ceph 独 自 提供 了 3 类 存储 方式 ， 而 且 性 能 和 稳定 性 目前 已 经 比较 成 熟 ， 已 经 可 以 考虑 在 生产 环境 中 使 用 ， 值 得 去 探讨 和 研究 。 








10.1 Ceph 简 介 


组 件 ， 比 如 RADOS Gateway。 但 是 最 主要 的 还 是 上 面 的 3 个 。 下 面 详细 介绍 一 下 这 3 个 角色 组 件 的 作用 。 

















Ceph 在 设计 之 初 便 被 定义 为 一 个 存储 平台 软件 ， 在 一 个 分 布 式 集群 之 上 ， 同 时 为 用 户 提供 对 象 存储 、 块 存储 及 文件 存储 。Ceph 的 主要 特点 包括 : 








“ 统一 存储 。 


. 无 任何 单 点 故障 。 


.存储 容量 可 扩展 。 


“ 自动 容错 及 故障 自 念 。 





1.Ceph 的 三 大 角色 组 件 及 其 作用 





在 Ceph 存 储 集群 中 ， 包 含 了 三 大 角色 组 件 ， 它 们 在 Ceph 存 储 集群 中 表现 为 3 个 守护 进程 ， 分 别 是 Ceph OSD、Monitor、MDS。 它 们 支撑 起 了 一 个 完成 的 Ceph 存 储 集群 。 当 然 ， 还 有 一 些 其 他 的 功能 















































Ceph OSD: Ceph 的 OSD (Object Storage Device) 守护 进程 。 主 要 功能 包括 : 存储 数据 、 副 本 数据 处 理 、 数 据 恢 复 、 数 据 回 补 、 平 衡 数据 分 布 ， 并 将 数据 相关 的 一 些 监控 信息 提供 给 Ceph 

















Moniter， 以 便 Ceph Moniter 来 检查 其 他 OSD 的 心跳 状态 。 一 个 Ceph 存 储 集群 ， 要 求 至 少 两 个 Ceph OSD， 才 能 有 效 地 保存 两 份 数据 。 注 意 ， 这 里 的 两 个 Ceph OSD 是 指 运行 在 两 台 物 理 服务 器 上 的 ， 并 
不 是 在 一 台 物 理 服务 器 上 运行 两 个 Ceph OSD 的 守护 进程 。 





Monitor: Ceph 的 Monitor 守 护 进程 ， 主 要 功能 是 维护 集群 状态 的 表 组 ， 这 个 表 组 中 包含 了 多 张 表 ， 其 中 有 Meoniter map, OSD map, PG (Placement Group) map, CRUSH map, 











MDS: Ceph 的 MDS (Metadata Server) 守护 进程 ， 主 要 保存 的 是 Ceph 文 件 系统 的 元 数据 。 注 意 ， 对 于 Ceph 的 块 设备 和 Ceph 对 象 存 储 都 不 需要 Ceph MDS 守 护 进程 。Ceph MDS 为 基于 POSIX 文 














件 系统 的 用 户 提供 了 一 些 基础 命令 的 执行 ， 比 如 ls、find 等 ， 这 样 可 以 很 大 程度 上 降低 Ceph 存 储 集群 的 压力 。 








2.Ceph 的 架构 及 应 用 场景 























Ceph 的 架构 主要 分 成 底层 数据 分 布 及 上 层 应 用 接口 ， 如 图 10-1 所 示 。 


























RADOSGW 


A bucket-based 
REST gateway, 
compatible with S3 
and Swift 


RBD 


A reliable and fully- 
distributed block 
device, with a Linux 
kernel client and a 
QEMU/KVM driver 


CEPHFS 


A POSIX-compliant 
distributed file 
system, with a 
Linux kernel client 
and support for 


FUSE 





图 10-1 Ceph 架 构 (图 片 引 用 自 Ceph 官 方 文档 ) 
* A library allowing……and PHP: LIBRADOS 库 允许 应 用 程序 可 以 直接 访问 Ceph 底 层 的 对 象 存储 ， 它 支持 的 有 C、C++、Java、Python、Ruby 及 PHP 语 言 。 
* A buket-based……and swift: 一 套 基 于 RESTful 协 议 的 网 关 ， 并 兼容 S3 和 Swift。 
“A reliable……QEMU/KVM driver: 通过 Linux 内 核 客户 端 及 QEMU/KVM 了 驱动， 来 提供 一 个 可 靠 且 完全 分 布 的 块 设备 。 
“ A POSIX-compliant……for FUSE: 通过 Linux 内 核 客 户 端 结合 FUS 下 ， 来 提供 一 个 兼容 POSIX 文 件 结构 系统 。 
“A teliable ，autonomous……storage nodes: 以 其 具备 的 自 念 功能 、 自 管理 、 智 能 存储 节点 特性 ， 来 提供 一 个 可 靠 、 自 动 、 分 布 式 的 对 象 存储 。 


Ceph 的 底层 核心 是 RADOS (Reliable, Autonomous, Distributed, Object, Storage) ， 从 字义 上 可 以 看 出 ，Ceph 的 本 质 是 一 个 对 象 存储 。RADOS 由 两 个 组 件 组 成 : OSD 和 Monitor。OSD 主 要 
提供 存储 资源 ， 每 一 个 disk、SSD、RAID group 或 者 一 个 分 区 都 可 以 成 为 一 个 OSD， 而 每 个 OSD 还 将 负责 向 该 对 象 的 复杂 节点 分 发 和 恢复 ;Monitor 维 护 Ceph 集 群 并 监控 Ceph 集 群 的 全 局 状态 ， 提 供 一 致 
性 的 决策 。 如 图 10-2 所 示 展 示 了 RADOS 的 结构 组 成 。 

















图 10-2 RADOS 结 构 (图 片 引 
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用 自 Ceph 官 方 文档 ) 


RADOS 分 发 策略 依赖 于 一 个 名 为 CRUSH (Controlled Replication Under Scalable Hashing， 基 于 可 扩展 哈 希 算法 的 可 控 复 制 ) 的 算法 (关于 这 个 算法 ，10.3 节 将 进行 详细 的 介绍 和 分 析 ) 。 


Ceph 的 应 用 场景 主要 由 它 的 架构 确定 ，Ceph 提 供 对 象 存储 、 块 存储 和 文件 存储 ， 对 应 于 实际 应 用 ， 也 以 这 三 类 存储 进行 区 分 ， 主 要 有 4 种 应 用 ， 本 章节 着 重 介绍 与 虚拟 化 相关 的 第 三 和 第 四 类 应 用 。 








第 一 类 ，Librados 应 用 。 通 俗 地 说 ，Librados 提 供 了 应 用 程序 对 RADOS 的 直接 访问 ， 目 前 Librados 已 经 提供 了 对 C、C++、Java、Python、Ruby 和 PHP 的 支持 。 它 支持 单个 单项 的 原子 操作 ， 如 同时 
更 新 数据 和 属性 、CAs 操 作 ， 同 时 有 对 象 粒度 的 快照 操作 。 它 的 实现 是 基于 RADOS 的 插件 AP1， 因 此 ， 其 实际 上 就 是 在 RADOS 上 运行 的 封装 库 。 








第 二 类 ，RADOSGW (Reliable Autonomic Distributed Object Storage) 应 用 。 这 类 应 用 基于 Libra 











dos 之 上 ， 增 加 了 HTTP 协 议 ， 提 供 RESTful 接 口 并 且 兼 容 S3、Swfit 接 口 。RADOSGW 将 Ceph 集 














群 作 为 分 布 式 对 象 存储 ， 对 外 提供 服务 ， 如 Amazon 的 S3 范 围 、Swift 等 。 企 业 也 可 以 直接 将 其 作为 媒体 数据 存储 、 分 发 等 。 











第 三 类 ，RBD (RADOS Block Device) 应 用 。 同 样 ， 这 类 应 用 也 是 基于 Librados 之 上 的 ， 细 分 为 两 种 


应 用 场景 。 





1) 为 虚拟 机 提供 块 设备 。 通 过 Librbd 可 以 创建 一 个 块 设备 (Container) ， 然 后 通过 QEMU/KVM 附 加 到 VM 上 。 通 过 Container 和 VM 的 解 厢 ， 使 得 块 设 备 可 以 被 绑 定 到 不 同 的 VM 上 。 


2) 为 主机 提供 块 设备 。 这 种 场景 便 是 我 们 传统 意义 上 理解 的 块 存储 。 


以 上 两 种 方式 都 是 将 一 个 虚拟 的 块 设备 分 片 存储 在 RADOS 中 ， 都 会 利用 数据 条 带 化 提高 数据 并 行 传输 ， 























都 支持 块 设备 的 快照 、COW (Copy-On-Write) 克隆 。 最 重要 的 是 RBD 还 支持 Live 


migration。 目 前 的 OpenStack、CloudStack、OpenNebula 这 些 管理 平台 都 采用 第 一 种 方式 为 虚拟 机 提供 块 设备 。 








第 四 类 ，CephFS (Ceph 文 件 系统 ) 应 用 。 这 类 应 用 是 基于 RADOS 实 现 的 PB 级 分 布 式 文件 系统 ， 其 中 
文件 元 数据 。 同 时 MDS 会 将 元 数据 存储 在 RADOS 中 ， 这 样 元 数据 本 身 也 达到 了 并 行 化 ， 可 以 大 大 加 快 文件 


引入 了 MDS (Meta Date Server) ， 它 主要 为 兼容 POSIX 文 件 系 统 提供 元 数据 ， 比 如 文件 目录 和 
操作 的 速度 。 主 要 指出 的 一 点 是 ，MDS 本 身 不 为 Client 提 供 数据 文件 ， 只 为 Client 提 供 对 元 数据 的 




















操作 。 当 Client 打 开 一 个 文件 时 ， 会 查询 并 更 新 MDS 相 应 的 元 数据 (如 文件 包括 的 对 象 信息 ) ， 然 后 再 根据 提供 的 对 象 信息 直接 从 RADOS 中 得 到 文件 数据 。 


10.2 ”Ceph 部 署 方法 及 在 KYM 中 的 应 用 


在 Ceph 的 官网 上 提供 了 两 种 安装 Ceph 的 方法 : Installation (Quick) 和 Installation (Manual) 。 
烦琐 ， 但 有 助 于 加 深 对 Ceph 各 角色 的 理解 。 





此 处 主要 介绍 使 用 ceph-deploy 工 具 来 部 署 和 管理 Ceph 集 群 。 








Quick 安 装 是 使 用 ceph-deploy 工 具 来 部 署 ; Manual 则 是 一 步 步 手 动 来 部 署 Ceph 集 群 ， 步 又 相 对 





10.2.1 ”使 用 ceph-deploy 工 具 部 署 Ceph 


Ceph 官 方 推荐 的 一 种 快速 部 署 和 管理 Ceph 集 群 的 工具 ， 它 在 GitHub 上 活跃 度 非常 高 ， 基 本 上 每 天 都 有 更 新 。ceph-deploy 工 . 
更 好 地 理解 Ceph 的 部 署 过 程 非常 有 上 

















使 











ceph-deploy 工 



































Ceph 集 群 节点 机 系统 采 有 











1. 安 装 ceph-deploy 





1) 配置 





机 名 ， 配 置 hosts 文 件 ， 本 例 ceph-deploy 安 装 在 其 中 一 个 节点 上 。 











SSH 的 方式 连接 到 服务 器 上 ， 通 过 执行 一 系列 的 Python 脚本 ， 来 完成 Ceph 集 群 的 部 署 。 它 的 一 个 显著 特点 是 不 需要 特别 配置 的 服务 器 ， 不 需要 数据 库 支持 。ceph-deploy 是 

















都 是 使 用 Python 语言 编写 的 ， 感 兴趣 的 读者 不 妨 读 一 下 它 的 源 代码 ， 这 对 








CentOS 6.564 位 、Ceph 版 本 0.87。 总 共 4 台 Ceph 节 点 机 ， 每 台 节 点 机 启动 两 个 OSD 角 色 ， 每 个 OSD 角 色 对 应 一 块 物理 磁盘 。 





[root@ ceph-host-01]# cat /etc/hosts 

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 
10.168.107.13 . ceph-host-01 

10.168.107.14 . ceph-host-02 

10.168.107.169 ceph-host-03 

10.168.107.170  ceph-host-04 














2) 使 











ssh-keygen 生 成 key,， 3f 











ssh-copy-id 复 制 key 到 各 节点 机 。 例 如 将 key 复 制 到 ceph-node-173， 其 他 节点 操作 相同 。 





[root@ceph-host-01 ~]# ssh-copy-id ceph-host-02 

The authenticity of host 'ceph-host-02 (10.168.107.14) ' can't be established. 

RSA key fingerprint is 1b:54:26:c8:45:cf:12:d1:7e:02:32:a5:7£:60:95:6a. 

Are you sure you want to continue connecting (yes/no) ? yes 

Warning: Permanently added 'ceph-host-02, 10.168.107.14' (RSA) 

hosts. 

rootéceph-host-02's password: 

Now try logging into the machine, with "ssh 'ceph-host-02'", 
.ssh/authorized keys 

to make sure we haven't added extra keys that you weren't expecting. 


to the list of known 


and check in: 





3) 安装 ceph-deploy。 








使 


























yum 的 方式 安装 ceph-deploy 非 常 方便 ， 在 安装 之 前 ， 先 添加 ceph-deploy 的 yum 安 装 源 ， 如 下 代码 中 将 {ceph-stable-release} 蔡 换 为 
baseurl=http://ceph.com/rpm-giant/el6/noarch/。 配 置 完成 之 后 ,使 

















前 最 新 的 giant 版 本 ，{distro} 蔡 换 为 el6， 最 终 为 








yum install ceph-deploy 完 成 ceph-deploy 的 安装 。 





<!-- 配置 yum --> 

[root@ceph-host-01 ~]# cat /etc/yum.repos.d/ceph.repo 

[ceph-deploy] 

name-Ceph Packages and Backports $basearch 

baseurl- http://ceph.com/rpm-(ceph-stable-release]/(distro)/noarch 
enabled-1 

gpgcheck-1 

type-rpm-md 

gpgkey-https: //ceph.com/git/?p-ceph.git;a-blob plain; f-keys/release.asc 
[rootéceph-host-01 ~]# yum install ceph-deploy 

[root(ceph-host-01 ~]# ceph-deploy --version 

1.5.20 





2. 创 建 Ceph Monitorf&& 

















1) 在 使 用 ceph-deploy 部 署 的 过 程 中 会 生成 一 些 配置 文件 ， 建 议 先 创 建 一 个 目录 ， 例 如 deploy ce 
2) 配置 主机 名 ， 配 置 hosts 文 件 ， 本 例 ceph-deploy 安 装 在 其 中 一 个 节点 上 。 








ph_cluster， 然 后 在 这 个 目录 中 执行 全 部 的 ceph-deploy 部 署 操 作 。 





[root@ceph-host-01 deploy ceph cluster]# ceph-deploy new ceph-host-01 ceph-host- 
02 ceph-host-03 

[ceph deploy.conf][DEBUG ] found configuration file at: /root/.cephdeploy.conf 
<!-- 此 处 省 略 多 行 ceph-deploy DEBUG 输 出 --> 

[rooteceph-host-01 deploy ceph cluster]# ls 

ceph.conf ceph.log ceph.mon.keyring 





执行 完成 之 后 ， 配 置 目 录 下 生成 3 个 文件 : ceph.conf 为 集群 配置 文件 ; ceph.log 为 ceph-deploy 命 令 执 


3) 安装 Ceph 程 序 。 











行 结果 的 








志 ; ceph.mon.keyring 为 ceph mon 角 色 的 key。 

















使 








ceph-deploy 来 安装 Ceph 程 序 ， 也 可 以 全 





v0.87, 


独到 每 台 节 点 机 上 手动 安装 Ceph， 根 据 配 置 的 yum 源 不 





同 ， 会 安装 不 同 版 本 的 Ceph， 默 认 安 装 成 功 之 后 版 本 还 是 v0.80， 非 最 新 版 本 。 此 处 最 新 版 本 为 





[root@ ceph-host-01 ceph-config]fceph-deploy install ceph-host-01 ceph-host-02 ceph- 
host-03 ceph-host-04 





4) 创建 Ceph Moniter, 





[rooteceph-host-01 deploy ceph cluster]# ceph-deploy mon creat ceph-host-01 ceph- 
host-02 ceph-host-03 





5) 收集 节点 的 key。 








使 











ceph-deploy gatherkey 命 令 将 节点 的 key 文 件 收 上 来 ， 执 行 成 功 之 后 ， 在 本 地 目录 下 会 新 产 和 


key) 、ceph.bootstrap-mds.keyring (MDS 启 动 key) 。 


上 如 下 文件 : ceph.client.admin.keyring (管理 员 key) 、ceph.bootstrap-osd.keyring (OSD 启 动 





[root@ceph-host-01 deploy ceph cluster]# ceph-deploy gatherkeys ceph-host-01 ceph- 
host-02 ceph-host-03 € 

[root(ceph-host-01 deploy ceph cluster]# ls 

ceph.bootstrap-mds.keyring  ceph.bootstrap-osd.keyring ceph.client.admin.keyring 
ceph.conf ceph.log ceph.mon.keyring 





分 


3. 创 建 Ceph OSD 角 色 


1) 在 各 节点 机 上 ， 在 OSD 对 应 的 硬盘 分 
区 挂 载 到 对 应 的 目录 下 。 使 





区 ， 可 以 分 10GB 作 为 























志 空 间 ， 剩 余 空间 存放 数据 ， 格 式 化 数据 分 区 为 xfs 格 式 。 根 据 Ceph 官 网 的 提示 ， 生 成 环境 中 目前 还 是 建议 使 
fdisk 命 令 将 sdb 分 为 两 个 区 ，sdb1 为 10GB， 存 放 Ceph Journal 不 需要 格式 化 ; 其 余 的 sdb2 存 储 Ceph Data， 格 式 化 为 xfs，mkfs.xfs options: -f-i size=2048， 挂 载 时 注 

















xfs 格 式 。 将 格式 化 好 的 





意 xfs mount options: -o inode64，noatime， 在 fstab 文 件 中 添加 。 





/dev/sdb2 /opt/osd-data/sas01 xfs inode64, noatime 00 














使 用 mount-a 命 令 验证 fstab 配 置 并 挂 载 分 区 。 








[root8ceph-host-01]4 mount -a 





2) 编辑 ceph.conf， 添 加 部 分 必要 参数 。 





[root@ceph-host-01]# cat ceph.conf 

[global] 

auth service required - cephx 

filestore xattr use omap - true 

auth client required - cephx 

auth cluster required - cephx 

mon host = 10.168.107.13, 10.168.107.14, 10.168.107.169 
mon initial members = ceph-host-01, ceph-host-02, ceph-host-03 
fsid = 0527a494-d825-4f9d-87be-2fe6d9e47170 

<!-- 以 上 内 容 都 是 ceph-deploy 默 认 创建 --» 

public network = 10.168.107.0/24 

cluster network = 172.16.100.0/24 


«!--public 和 cluster network 是 新 增 部 分 ， 定 义 了 Ceph 集 群 的 两 个 网 络 --> 


[osd] 

osd journal size = 10240 

<!-= 定 义 osd 日志 的 大 小 ，10GB --» 

[mon] 

mon osd allow primary affinity - true 
<!-- 开 启 OSD 亲 和 度 调整 开关 --> 





3) 添加 OSD 分 两 步 ， 第 一 步 先 初始 化 ， 第 二 步 激活 。 





[root(ceph-host-01 deploy ceph cluster]# ceph-deploy --overwrite-conf osd prepare 


ceph-host-02: /opt/osd-data/sas01 : /dev/sdbl 


<!-- /opt/osd-data/sas01 是 Ceph 的 Data 分 区 ，/dev/sdbl 是 Ceph 的 Journal 分 区 --> 
[root@ceph-host-01 deploy ceph cluster]# ceph-deploy --overwrite-conf osd activate 


ceph-host-02: /opt/osd-data/sas01: /dev/sdbl 
<!-- 激活 OSD --» 





4 .创建 Ceph MDS 角 色 








Ceph MDS (Metadata Server) 角色 不 是 一 个 必需 的 角色 ， 只 有 当 使 


1) 创建 Ceph MDS 角 色 。 





命令 ceph-deploy mds create 后 面 跟 需 要 创建 MDS 和 角色 的 节点 名 称 ， 如 果 需 要 部 署 多 台 MDS 的 话 ， 可 以 写 多 个 节点 名 称 。 

















CephFSs 的 时 候 才 需要 。CephFS 至 少 需要 一 台 Metadata 服 务 器 ， 


官方 建议 也 是 一 台 ， 当 然 ， 完 全 可 以 部 署 多 台 。 





[root@ceph-host-01 deploy ceph cluster]# ceph-deploy mds create ceph-host-01 

















使 用 ceph-deploy 1.5.20 创 建 MDS 之 后 不 会 自动 生成 data 和 metadata 两 个 池 ， 在 此 需要 手动 创建 。 





[root@ceph-host-01 deploy ceph cluster]# ceph osd pool create data 192 192 


pool 'data' created 


[rootéceph-host-01 deploy ceph cluster]# ceph osd pool create metadata 192 192 


pool 'metadata' created 


[rooteceph-host-01 deploy ceph cluster]# ceph fs new cephfs metadata data 


new fs with metadata pool 2 and data pool 1 
[rootéceph-host-01 deploy ceph cluster]# ceph mds stat 
e5: 1/1/1 up (O0-ceph-host-0l-up:active] 








2) 按 上 面 的 操作 步骤 完成 之 后 ， 一 个 最 简单 的 Ceph 集 群 已 经 部 署 完 成 了 ， 使 用 ceph-s 命 令 查看 Ceph 集 群 的 状态 。 








[root@ceph-host-01]# ceph -s 
cluster 0527a494-d825-4f9d-87be-2fe6d9e47170 
health HEALTH_OK 


monmap el: 3 mons at{ceph-host-01=10.168.107.13:6789/0, ceph-host-02-10.168. 
107.14:6789/0, ceph-host-03-10.168.107.169:6789/0), election epoch 18, quorum 


0, 1, 2 ceph-host-01, ceph-host-02, ceph-host-03 
mdsmap e5: 1/1/1 up (0-ceph-host-0l-up:active) 
osdmap e24: 4 osds: 4 up, 4 in 
pgmap v44: 448 pgs, 3 pools, 1902 bytes data, 20 objects 
143 MB used, 1094 GB / 1094 GB avail 
448 activetclean 





10.2.2 挂 载 CephFSs 











CephFS 的 挂 载 方式 有 两 种 : FUSE (用 户 空间 文件 系统 ，Filesystem in Userspace) 和 通过 内 核 模块 挂 载 ， 两 种 方式 都 有 












































己 的 特点 。 使 




















FUSE 方 式 挂 载 CephFs 不 需要 将 内 核 升 级 到 3.x， 对 了 




















来 说 ， 目 前 CentOS 或 者 Red Hat 的 宿主 机 系统 大 部 分 使 用 的 是 6.5 或 者 之 前 的 版 本 。 直 接 编译 升级 内 核 ， 在 没有 充分 测试 之 前 是 不 可 取 的 。 那 么 在 不 改变 现 有 系统 内 核 的 基础 上 ， 使 用 FUSE 方 式 挂 载 


CephFS 是 最 方便 的 。 


外 二 


2015 年 3 月 发 布 的 RHEL/CentOS 7.1 的 内 核 已 经 默认 支持 Ceph。 





1. 使 用 FUSE 方 式 挂 载 CephFS 





























安装 FUSE， 需 要 添加 前 面 提 到 的 Ceph 官 方 源 ， 然 后 直接 执行 yum install ceph-fuse-y 命 令 即 可 。 














复制 ceph.conf 配 置 文件 和 ceph.client.admin.keyring 到 客户 端的 /etc/ceph 目 录 中 。 


虚拟 化 





[root@localhost ceph]# ceph-fuse /mnt/ceph-filesystem 


<!-- 此 处 挂 载 过 程 中 ，ceph-fuse 会 读 取 ceph.conf 配 置 ， 选 树 可 用 的 Moniter 进 行 挂 载 。 对 于 有 多 个 Moniter 的 集群 ， 即 使 其 中 一 个 Moniter 坏 了 也 不 影响 客户 端 使 用 -> 


[root@localhost]# df -Th 


Filesystem Type Size Used Avail Use% Mounted on 
/dev/mapper/vmvg-root ext4 46G 2.2G 41G 5$ / 
tmpfs tmpfs 1.9G 0 1.9G 0$ /dev/shm 


/dev/vdal ext4 194M 34M 150M 19$ /boot 


ceph-FUSE FUSE.ceph-FUSE 160G 31G 130G 19$ /mnt/ceph-filesystem 
«!-- REilesystem 的 源 是 ceph-EFUSE， 并 未 绑 定 哪 台 Moniter， 文 件 系统 类 型 是 FUSE .ceph-FUSE --» 





2. 使 用 内 核 方式 挂 载 CephFS 








对 于 目前 使 用 的 CentOS 6.5 宿 主机 来 说 ， 需 要 使 用 内 核 方式 挂 载 CephFS， 必 须 升级 内 核 ，CentOS 6 自 带 的 内 核 都 是 2.6.32-xxx 的 版 本 。 











(1) Linux 内 核对 Ceph 支 持 现状 


Ceph 官 方 文档 目前 对 于 3.x 几 大 最 主要 分 支 的 详细 版 本 如 下 : 





“ v3.16.3 or later (rbd deadlock regression in v3.16.[0-2]) 。 
* NOT v3.15.* (rbd deadlock regression) 。 

“ V3.14.*。 

"V3.10.*。 


为 Ceph 特 别 设计 的 文件 系统 btrfs 对 Linux 内 核 的 建议 如 下 : 











如 果 使 用 的 内 核 不 在 上 面 推荐 的 v3.x 分 支 的 话 ，v3.4.20 及 以 上 版 本 在 v3.4.x 中 最 稳定 ，v3.6.6 及 以 上 版 本 在 v3.6.x 中 最 稳定 。 其 他 v3.x 的 Linux 内 核 版 本 ， 官 方 推荐 使 用 。 














(2) 升级 系统 内 核 
CentOS 6.5 升 级 到 支持 Ceph kernel module 的 版 本 有 两 个 途径 ， 下 面 逐 一 介绍 。 


方法 一 : 从 官网 下 载 相应 的 内 核 版 本 ， 手 动 编译 、 安 装 ， 一 般 步骤 如 下 。 





# tar -xf linux-3.x.xx.tar.Xz 

# cd linux-3.x.xx 

# make mrproper 

<!-- 清理 旧 的 编译 生成 的 文件 及 其 他 配置 等 文件 --> 

# make menuconfig 

<!-- 这 一 步 将 打开 配置 选项 菜单 ， 选 择 需 要 编译 进 内 核 的 模块 此 处 选择 Ceph distributed file system--» 
# make all -j 8 

<!-- -j 8 表示 用 8 个 线程 去 编译 ， 一 般配 置 为 不 大 于 服务 器 的 CEU 核 数 -> 

#make modules install 

#make install -j 8 





编译 完成 后 ， 修 改 /etc/grub.conf 文 件 (default-O) ， 重 启 系统 ， 进 入 新 内 核 。 


方法 二 : 安装 编译 好 的 Linux 内 核 ， 例 如 ELRepo (Linux 企 业 版 的 一 个 增强 性 yum 源 ， 有 编译 好 的 最 新 Linux 内 核 ) : http://elrepo.orgytiki/tiki-index.php。ELRepo 提 供 两 种 Kernel 版 本 ， 一 个 是 
kernel-lt， 是 长 期 支持 版 本 ， 目 前 是 3.10.60; 另 一 个 是 kernel-ml， 目 前 主线 稳定 版 是 3.17.3。 








#rpm -Uvh http://www.elrepo.org/elrepo-release-6-6.e16.elrepo.noarch.rpm 
<!-- 安 装 ELRepo 的 yum 源 --> 
#yum --enablerepo-elrepo-kernel install kernel-lt 

















(3) 使 用 内 核 方式 挂 载 CephFS 


内 核 升 级 完成 之 后 ， 查 看 系统 中 已 经 加 载 的 Ceph 内 核 模块 。 





[root@localhost ~]# uname -a 

Linux localhost.localdomain 3.10.60-1.el6.elrepo.x86 64 #1 SMP Sat Nov 15 10:22: 
20 EST 2014 x86 64 x86 64 x86 64 GNU/Linux E 

[rootélocalhost ~]# lsmod |grep ceph 

ceph 147982 1 

libceph 148489 1 ceph 

libcrc32c 12644 1 libceph 











如 果 你 的 Ceph 未 使 用 cephx 认 证 ， 使 用 如 下 命令 挂 载 。 














sudo mount -t ceph {moniter IP}:6789:/ /mnt/mycephfs 




















默认 使 用 ceph-deploy 部 署 的 Ceph 集 群 都 是 开启 cephx 认 证 的 ， 可 采用 如 下 方式 挂 载 。 














[rootülocalhost ~]#mount -t ceph {moniter IP}:6789:/ /mnt/mycephfs -o name= 
admin , secret-AQATSKdNGBnwLhAAnNDKnH65FmVKpXZJVasUeQ-- 

<!-- {miniter IP} 根据 实际 集群 中 Moniter 的 IP --> 

[root@localhost ~]# df -Th 

Filesystem Type Size Used Avail Use% Mounted on 

/dev/mapper/vmvg-root ext4 16G 7.0G 7.7G 48% / 

tmpfs tmpfs 1004M 0 1004M 0% /dev/shm 

/dev/vdal ext4 190M 56M 120M 32% /boot 

172.16.100.173:6789:/ ceph 160G 31G 130G 19% /mnt/ceph-filesystem 





10.2.3 ”通过 Librbd 方 式 使 用 Ceph RBD 




















Ceph RBD (Rados Block Device， 基 于 RADOS 对 象 存储 的 块 设 备 ) 是 一 种 对 外 提供 块 设备 的 存储 方案 。Ceph RBD 包 含 许多 非常 好 用 的 功能 ， 包 括 快 照 、 备 份 、 恢 复 ， 其 中 还 有 一 个 对 于 虚拟 化 来 说 
最 好 的 特性 ， 就 是 对 QEMU 及 Libvirt 的 支持 ， 使 虚拟 机 直接 运行 在 Ceph RBD 上 成 为 可 能 。 本 节 主 要 介绍 如 何 配 置 KVM 虚 拟 机 直接 运行 在 Ceph RBD 之 上 。 








1. 升 级 安装 QEMU 使 其 支持 Librbd 











将 Ceph RBD 设 备 直接 作为 KVM 虚 拟 机 的 硬盘 ， 需 要 通过 Librbd 库 ， 官 方 yum 源 中 提供 的 QEMU 用 户 空间 程序 没有 添加 对 Librbd 的 支持 ， 所 以 ， 要 使 用 的 话 ， 必 须 手 动 编译 QEMU， 或 者 使 用 Ceph 官 
方 提供 的 已 经 编译 好 的 rpm 包 。 下 面 介绍 使 用 官方 的 yum 源 安装 QEMU 的 方法 。 












































1) 安装 yum 插 件 。 





[root(localhost ~]#yum install -y yum-plugin-priorities 





2) 添加 ceph-extras yum 源 。 





[root@localhost ~]# cat /etc/yum.repos.d/ceph-extras.repo 

[ceph-extras] 

name-Ceph Extras 
baseurl-http://ceph.com/packages/ceph-extras/rpm/centos6.4/S$basearch 
enabled-1 

priority-2 

gpgcheck-1l 

type-rpm-md 

gpgkey-https: / /ceph.com/git/p-ceph.git;a-blob plain; f-keys/release.asc 
[ceph-gemu-source] 

name-Ceph Extras Sources 
baseurl-http://ceph.com/packages/ceph-extras/rpm/centos6.4/SRPMS 
enabled-1 

priority-2 

gpgcheck-1 

type-rpm-md 

gpgkey-https: / /ceph.com/git/p-ceph.git;a-blob plain; f-keys/release.asc 





3) 移 除 系统 中 已 经 安装 的 QEMU 程 序 。 





[root@localhost ~]#yum remove qemu-kvm qemu-kvm-tools qemu-img 
[root@localhost ~]#yum clean all 





4) 安装 Ceph 定 制 的 QEMU 程 序 。 





[root@localhost ~]#yum install gemu-kvm qemu-kvm-tools qemu-img 
[rootülocalhost ~]#yum install gemu-guest-agent qemu-guest-agent-win32 
<!-- qemu-guest-agent 和 qemu-guest-agent-win32 是 QUMU 的 虚拟 机 客户 端 代 理 程序 --> 





2. 安 装 Libvirt 


Libvirt 是 一 套用 于 管理 、 操 作 庶 拟 机 的 常用 的 工具 集 。 它 支持 多 种 虚拟 化 引 警 ， 如 主流 的 KVM、Xen、Hyper-V 都 支持 。Ceph 对 于 Libvirt 并 没有 特别 的 要 求 ， 使 用 官方 提供 的 yum 源 ， 通 过 yum install 
libvirt 命 令 即 可 安装 Libvirt 工 具 集 。 











[rootülocalhost ~]#yum install libvirt 
[root(localhost ~]# rpm -qa |grep qemu 
qemu-kvm-0.12.1.2-2.415.e16.3ceph.x86 64 
qemu-img-0.12.1.2-2.415.e16.3ceph.x86 64 
qemu-kvm-tools-0.12.1.2-2.415.e16.3ceph.x86 64 
gpxe-roms-qemu-0.9.7-6.12.e16.noarch 
qemu-guest-agent-0.12.1.2-2.415.e16.3ceph.x86 64 
[rootülocalhost ~]# rpm -qa |grep libvirt 
libvirt-0.10.2-46.e16 6.2.x86 64 
libvirt-client-0.10.2-46.e16 6.2.x86 64 

<!-- 查 看 系统 中 安装 的 OEUM 及 Libvirt 包 版 本 =-> 





安装 完 Libvirt 之 后 ， 还 需要 安装 Ceph， 方 法 在 上 面 章节 已 经 介绍 了 ， 配 置 好 Ceph 官 方 的 源 ， 执 行 yum install ceph-y 命 令 即 可 安装 Ceph。 


3 配置 虚拟 机 直接 运行 在 Ceph RBD 之 上 








1) 在 Ceph Moniter 上 创建 用 于 运行 虚拟 机 的 pool (存储 池 ) 。 











[root(ceph-host-01 ~]#ceph osd pool create vmpool 192 192 
«!-- 创建 名 为 vmpoo1 的 存储 池 ， 指 定 pg=192 pgs-192 --» 





2) 创建 client.libvirt 账 户 ， 并 赋予 vmpool 存 储 的 访问 权限 。 





[root@ceph-host-01 ~]#ceph auth get-or-create client.libvirt mon 'allow r' osd 
'allow class-read object prefix rbd children, allow rwx pool-vmpool' 





3) 将 Ceph 的 配置 文件 复制 到 /etc/ceph/ceph.conf。 
4) 将 Ceph 的 授权 文件 复制 到 /etc/ceph/ceph.client.admin.keyring。 


5) 将 虚拟 机 镜像 文件 转换 到 RBD 镜 像 中 。 





[root@localhost]# qemu-img convert -f qcow2 -O raw win2003ent32chs rbd:vmpool/ 
windows2003 
<!-- 这 步 操作 将 在 vmpool 中 创建 名 为 windows2003 的 镜像 ， 并 将 Windows 2003 32 位 系统 转换 到 这 个 镜像 中 ， 大 小 和 Windows 2003 32 位 系统 相同 一 -> 








6) 在 客户 端 为 client.libvirt 生 成 一 个 密码 ， 步 又 10 会 用 到 这 个 步骤 生成 的 uuid。 





[root@localhost ~]# cat > secret.xml ««EOF 

> «secret ephemeral-'no' private='no'> 

> «usage type='ceph'> 

> «name»client.libvirt secret</name> 

> </usage> 

> </secret> 

> EOF 

[root@localhost ~]# virsh secret-define --file secret.xml 
Secret 22446aal-1422-cbf3-3100-04147alfa3f3 created 

<!-- uuid of secret is output here --» 





7) 在 Ceph Moniter 上 查看 client.libvirt 的 key。 





[root@ceph-host-01 ~]# ceph auth get-key client.libvirt 
AQBelmlUSGECDhAAgkVOWlrMf /KkLYllrHvFdKg-- 





8) 为 virsh 授 权 。 





[root(localhost ~]# virsh secret-set-value --secret 22446aal-1422-cbf3-3100- 
04147alfa3f3 --base64 AQBelmlUSGECDhAAgkVOWlrMf/kLYllrHvFdKg-- 





9) 使 用 virt-install 或 者 virt-manager 创 建 一 台 虚 拟 机 。 








[rootelocalhost-]i4virt-install --name-vm name--ram-2048--vcpus-4--os-type- 
windows --file-/root/vmdisk.img --file-size-10 --bridge-br0 --vnc --vncport-5920 
<!-- 以 上 命令 将 创建 一 台 名 为 vm_name、 内 存 为 2GB、4 核 CPU、 操 作 系 统 为 Windows 的 虚拟 机 一 -> 





10) 编辑 虚拟 机 的 xml 文 件 。 





«disk type-'network' device-'disk'» 
«driver name-'gemu'/» 
«auth username-'libvirt'» 
<!--1Libvirt 用 户 是 之 前 创建 的 Client 名 字 --> 
<secret type-'ceph' uuid-'22446aa1-1422-cbf3-3100-04147alfa3f3'/» 
<!-- 此 处 的 uuid 是 步骤 6 中 生成 的 密码 --> 
«/auth» 
<source protocol-'rbd' name-'vmpool/windows2003'» 
<!-- 此 处 指定 的 是 虚拟 机 的 硬盘 文件 路 径 ， 在 Vvmpool1 的 存储 池 下 名 为 windows2003 的 镜像 --> 
<host name-'10.168.107.13' port='6789'/> 
<host name-'10.168.107.14' port='6789'/> 
<host name-'10.168.107.169' port-'6789'/» 
<!-- 上 面 定义 的 3 个 host name 分 别 是 Ceph 集 群 的 3 个 Monitor 服务 器 地 址 --> 
</source> 
«target dev-'vda' bus-'virtio'/» 
«alias name-'virtio-diskl'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x05' function-'0x0'/» 
«/disk» 





11) 开启 虚拟 机 ， 虚 拟 机 正常 启动 ， 已 经 运行 在 Ceph RBD 中 。 





[root@localhost datapool]# virsh start rbd-vm-win  // rbd-vm-win 是 虚拟 机 名 称 
[root@localhost datapool]# virsh qemu-monitor-command --hmp rbd-vm-win 'info block' 
drive-virtio-disk0: removable-0 io-status-ok file-rbd:vmpool/windows2003:id-libv 
irt:key-AQBelmlUSGECDhAAgkVOWlrMf/kLYllrHvFdKg--:auth supported-cephxW;none:mon 
host-10.168.107.13NN:6789NN;10.168.107.14NNV:6789NN;10.168.107.169NV:6789 ro-0 drv- 
raw encrypted-0 

«l-- 查看 虚拟 机 块 设备 信息 - 








10.24 使 用 内 核 方式 挂 载 并 使 用 Ceph RBD 








使 用 内 核 方式 挂 载 Ceph 块 设备 ， 需 要 一 个 前 提 ， 那 就 是 需要 内 核 支持 RBD 模 块 ， 默 认 CentOS 6.5 内 核 不 支持 ， 需 要 升级 内 核 ， 如 何 升级 内 核 在 前 面 章节 已 经 介绍 了 。 














挂 载 Ceph RBD 设 备 之 后 ， 有 两 种 使 用 方式 。 




















第 一 ， 直 接 格式 化 当 作 本 地 磁盘 使 用 。 








第 二 ， 使 用 iSCSI 软件 ， 将 这 个 块 设备 以 iSCSI 设备 的 形式 对 外 提供 iSCSI 服务 。 











在 本 节 中 这 两 种 使 用 方式 都 会 介绍 。 








1. 使 用 内 核 方式 映射 Ceph RBD 





1) 升级 CentOS 6.5 系 统 的 内 核 到 3.10.x， 并 加 装 RBD 模 块 。 





[root@localhost ~]# uname -a 

Linux localhost.localdomain 3.10.60-1.el6.elrepo.x86 64 #1 SMP Sat Nov 15 10:22: 
20 EST 2014 x86 64 x86 64 x86 64 GNU/Linux T 

[root@localhost ~]# modprobe rbd 

[root@localhost ~]# lsmod |grep rbd 

rbd 56747 0 

libceph 148489 1 rbd 





2) 执行 安装 Ceph RBD 的 命令 。 





[rootülocalhost ~]# yum install ceph-common 

«1— 配置 完 Ceph 的 yum 源 ， 因 为 rbq 命 令 包 含 在 ceph-common 包 中 ， 只 需 安装 ceph-cormon--> 
[root(localhost ~]# rbd -v 

ceph version 0.87 (c51c8f£9d80fa4e0168aa252685b8de40e42758578) 

<!-- 当 前 安装 的 rbd 是 属于 ceph 0.87 的 --> 





3) 在 Ceph 集 群 中 创建 存储 池 及 镜像 。 创 建 名 为 rbdpool 的 存储 池 ，PG (Placement Group， 配 置 组 ) 和 PGs (配置 组 总 和 ) 定义 为 192。 





[root@bjgm-ceph-osd-13 ~]# ceph osd pool create rbdpool 192 192 
pool 'rbdpool' created 
[root8bjgm-ceph-osd-13 ~]# rbd create block-device --size 1024000 --pool rbdpool 
<!-- 在 存储 池 Fbdpool 中 创建 名 为 block-device 的 镜像 ， 大 小 为 1000MB--> 
[root(bjgm-ceph-osd-13 ~]# rbd ls rbdpool 
block-device 
<!-- 查 看 存储 池 rbdpool 中 包括 的 镜像 -> 
[root8bjgm-ceph-osd-13 ~]# rbd info block-device --pool rbdpool 
rbd image 'block-device': 

size 1000 GB in 256000 objects 

order 22 (4096 kB objects) 

block name prefix: rb.0.1aa6.238e1f29 

format: 1 
<!-- 查 看 存储 池 Tbdpool 中 镜像 block-device 的 信息 --> 





4) 复制 Ceph 集 群 的 配置 及 key 到 客户 端 。 

















此 处 为 了 方便 实验 ， 客 户 端 用 的 key 就 是 client.admin 的 key。 在 生成 环境 中 出 于 安全 考虑 ， 需 要 创建 账号 ， 重 新 授权 。 











5) 客户 端 挂 载 RBD 设 备 。 





[root@localhost ~]# rbd map block-device -p rbdpool 


/dev/rbdl 
[root(localhost ~]# 11 /dev/rbdl 
brw-rw----. 1 root disk 251, 0 Nov 22 14:00 /dev/rbdl 


<!-- 查 看 rbd1 设 备 ， 目 前 已 经 挂 载 到 客户 端 了 --> 





2. 直 接 使 用 Ceph RBD 设 备 





这 种 方式 用 得 比较 普遍 ， 等 于 给 服务 器 挂 载 了 一 块 远程 磁盘 。 还 可 以 非常 方便 地 卸载 和 挂 载 到 其 他 服务 器 上 ， 类 似 于 云 硬盘 。 








- 使 用 fdisk/devy/tbd1 创 建 分 区 。 


- 4% Jf mkfs.ext4/dev /rbdl pl & A46 2- E o 


: mount 分 区 到 挂 载 点 。 





[root@localhost ~]# mount /dev/rbdlpl /rbd/ 
[rootelocalhost ~]# df -Th 

Filesystem Type Size Used Avail Use% Mounted on 
/dev/mapper/VolGroup-lv root ext4 18G 1.2G 16G 8$ / 
tmpfs tmpfs 2.0G 8.0K 2.0G 1$ /dev/shm 
/dev/vdal ext4 | 477M 70M 378M 16$ /boot 
/dev/rbdlpl ext4 99G 60M 94G 1$ /rbd 
«!-- /rbd 目录 上 挂 载 的 就 是 100GB 大 小 的 RBD 设 备 分 区 --> 





3. 使 用 scsi-target 将 Ceph RBD 作 为 共享 块 设备 对 外 提供 服务 





(1) 编译 安装 tgt 



































编译 安装 tgt 需 要 先 用 yum 命 令 安 装 tgt 工 具 ， 默 认 安 装 的 tgt 工 具 不 支持 RBD， 还 需要 从 GitHub 中 下 载 源 代码 ， 手 动 编译 。 编 译 之 前 需 打 开 configure 文 件 将 “export CEPH_RBD” 这 一 行 修改 
为 “export CEPH_RBD=1”， 然 后 编译 安装 。 各 系统 环境 不 同 ， 编 译 过 程 可 能 会 报错 ， 根 据 实 际 情况 处 理 ， 编 译 安装 过 程 中 使 用 的 命令 为 : 












































yum install scsi-target-utils # 安 装 tgt 工 具 。 

git clone https://github.com/fujita/tgt # 下 载 tgt 源 代码 。 

# 打 开 configure 文 件 将 "export CEPH_RBD" 这 一 行 修改 为 "export CEPH RBD-1". 
make & make install # 编 译 安装 。 





(2) 共享 RBD 设 备 





[root@localhost ~]# tgtd 

<!-- 启动 tgtd --> 

[root@localhost ~]# rbd create iscsi-image --size 500000 --pool rbdpool 

«1— 创建 RBD 卷 ， 名 为 iscsi-image， 大 小 为 500GB--> 

[root@localhost ~]# tgtadm --lld iscsi --mode target --op new --tid 1 --targetname 
iscsi rbd 

«1— 创建 target，iqn 名 为 iscsi rbd --> 

[root@localhost ~]# tgtadm --lld iscsi --mode logicalunit --op new --tid 1 --lun 
1 --backing-store iscsi-image --bstype rbd 

<!-- 创建 LUN 将 ijscsi-image 加 入 lun --» 

[root@localhost ~]# tgtadm --lld iscsi --op bind --mode target --tid 1 -I ALL 
<!-- 添加 访问 权限 ，-I 后 面 可 以 填 网 段 ， 此 处 允许 所 有 客户 端 连 接 1SCSI 共 享 的 Lun--> 





(3) 客户 端 挂 载 iSCSI 设备 





[root@client ~]#iscsiadm -m discovery -t st -p 10.0.0.2 
[root@client ~]#iscsiadm -m node -T iSCSI rbd -p 10.0.0.2 -1 





10.3 ”CRUSH 算 法 介绍 及 调 优 方法 




















本 节 将 介绍 CRUSH 算 法 的 用 途 、 特 性 ， 以 及 算法 调 优 技巧 。 


10.3.10 ” CRUSH 算法 介绍 























CRUSH (Controlled Replication Under Scalable Hashing) 是 一 种 基于 可 扩展 哈 希 的 控制 复制 算法 ， 在 Ceph 中 ，CRUSH 是 其 中 负责 数据 对 象 实际 分 布 与 数据 恢复 的 算法 ， 对 于 大 规模 分 布 式 存储 系 
统 来 说 ， 有 一 些 问题 是 必须 要 关注 ， 或 者 说 必定 会 出 现 的 ， 比 如 分 布 数据 和 负载 (提高 资源 利用 率 ) ， 最 大 化 系统 的 性 能 ， 处 理 系统 的 扩展 和 硬件 失效 ， 等 等 。 而 本 节 中 介绍 的 CRUSH 算 法 正 是 为 了 解决 或 
者 说 要 做 得 更 好 而 出 现 的 ， 要 做 到 当 发 生存 储 设备 故障 、 存 储 设备 添加 和 移 除 时 ， 能 最 小 化 地 迁移 数据 来 恢复 故障 其 实 非常 必要 ， 可 以 有 效 地 减少 磁盘 因为 频繁 读 / 写 而 降低 Ceph 集 群 的 性 能 。 






































1.CRUSH 算 法 三 要 素 
CRUSH 算 法 从 根本 上 来 说 ， 是 通过 存储 设备 的 权重 来 计算 数据 对 象 的 分 布 的 。 在 计算 过 程 中 ， 由 Cluser Map, Data Distribution Policy 和 给 出 的 一 个 随机 的 整数 x 共同 决定 数据 对 象 最 终 的 位 置 。 


“ Cluster Map (集群 映射 ) : 它 的 主要 作用 是 记录 所 有 可 用 的 存储 资源 及 相互 之 间 的 室 间 层次 架构 (比如 说 ， 这 个 Ceph 集 群 包含 有 多 少 个 机 架 ， 每 个 机 架 上 有 多 少 台 服务 器 ， 每 个 服务 器 上 有 多 少 个 磁 
盘 这 些 信 息 ) 。Cluster Map 使 得 Ceph 集 群 存储 设备 在 物理 层面 做 了 一 层 防 护 ， 这 点 也 很 容易 理解 ， 比 如 ， 数 据 和 备份 不 放 在 同一 台 服 务 器 上 来 避免 服务 器 宕 机 受 影响 ， 数 据 和 备份 不 放 在 同一 个 机 柜 来 避免 
机 柜 掉 电 受 影响 ， 数 据 和 备份 不 放 在 同一 排 机 柜 避 免 整 排 机 柜 跳闸 受 影响 等 。 


- Data Distribution Policy (数据 分 布 规则 ) : 它 由 Placement Rules (配置 规则 ) 组 成 。Placement Rules 决 定 了 每 个 数据 对 象 的 副本 份 数 ， 以 及 这 些 副 本 存储 的 限制 条 件 ( 比 如 3 个 副本 放 在 不 同 的 服务 器 
中 ， 或 者 不 同 的 机 架 中 ) 。 


“CRUSH 算 法 利用 多 参数 Hash 函 数 ，Hash 函 数 中 的 参数 含有 x， 使 得 从 x 到 OSD 集 合 是 确定 性 的 和 独立 的 。CRUSH 又 是 伪 随 机 算法 ， 所 以 相似 输入 的 结果 之 间 并 没有 相关 性 。 

















下 面 主 要 介绍 Cluster Map 和 Data Distribution Policy， 因 为 这 两 个 因素 比较 抽象 。 


2.CRUSH 算 法 要 素 说 明 





(1) Cluster Map 的 分 层 结构 

















Cluster Map 由 Device (设备 ) 和 Bucket ( 桶 ) 组 成 ， 它 们 都 有 ID 和 权重 值 ， 并 且 形 成 一 个 以 Device 为 叶 节点 、Bucket 为 非 叶 节点 的 树 形 结构 ， 如 图 10-3 所 示 。 























Bucket 拥 有 不 同 的 类 型 ， 包 括 Row、Rack、Host， 如 图 10-3 所 示 ， 所 有 机 架 的 类 型 为 Rack， 所 有 主机 的 类 型 为 Host。 使 用 者 还 可 以 自己 定义 Bucket 的 类 型 。Device 节 点 的 权重 代表 存储 节点 的 容量 
和 性 能 ， 其 中 磁盘 容量 是 影响 权重 大 小 的 重要 参数 。Bucket 节 点 的 权重 是 其 子 节点 的 权重 之 和 。Device 是 实际 存放 Placement Groups 的 OSD 设 备 。Cluster Map 通 过 Device 和 Bucket 的 定义 反映 了 Ceph 
存储 集群 的 物理 结构 。 


















































(2) Data Distribution Policy 




















Data Distribution Policy 主 要 由 Placement Rules (放置 规则 ) 组 成 ， 它 决定 了 数据 对 象 的 保留 份 数 及 对 象 副本 分 布 的 区 域 ， 每 个 区 域 可 以 是 一 个 单独 的 故障 域 ， 这 样 可 以 保证 某 个 区 域 发生 故 障 时 ， 
在 其 他 故障 域 的 数据 不 受 影响 。 每 一 个 Rule 可 以 定义 一 系列 操作 ， 而 Rule 定 义 的 规则 最 终 可 以 应 用 在 一 个 池上 。 




















10.3.2 ”CRUSH 算 法 调 优 方法 














10-3 Cluster Map 分 层 结构 (来 自 Ceph 官 方 资料 ) 


CRUSH 算 法 不 同 于 其 他 一 致 性 算法 ， 它 提供 了 一 些 可 以 调 优 的 参数 ， 使 最 终 的 数据 分 布 变 得 更 加 可 控 ， 通 过 人 为 干预 的 方式 来 避免 一 些 故障 的 发 生 。 


CRUSH 算 法 调 优 可 以 分 为 两 类 。 


第 一 ， 通 过 调整 CRUSH MAP (描述 了 包含 当前 磁盘 、 服 务 器 、 机 架 等 元 素 的 层级 结构 ) 的 配置 来 实现 Ceph 的 架构 调 优 。 


第 二 ，Ceph 性 能 调 优 。 


1. 通 过 调整 CRUSH MAP 实 现 Ceph 架 构 调 优 


通过 调整 CRUSH MAP 实 现 Ceph 架 构 调 优 的 操作 方法 和 步骤 如 下 。 


1) 导出 当前 Ceph 集 群 的 CRUSH MAP， 此 时 的 CRUSH MAP 是 一 个 二 进 制 文件 ， 还 需要 进一步 来 解析 这 个 二 进 制 文件 。 





[root@bjgm-ceph-mm-29 crush]# ceph osd getcrushmap -o crushmap 
got crush map from osdmap epoch 5043 





2) 使 用 crushtool 解 析 之 前 导出 的 CRUSH MAP 二 进 制 文件 ， 保 存 为 crush.map。 





[root@bjgm-ceph-mm-29 crush]# crushtool -d crushmap -o crush.map 





3) 打开 cursh.map 文 件 。 





[root@bjgm-ceph-mm-29 crush] 
device 0 osd.0 
device 1 osd.1 

<!-- 省略 相 似 的 输出 csd.2 
device 23 osd.23 


# types  «!-- 

type 0 osd 

type 1 host 

type 2 chassis 

type 3 rack 

type 4 row 

type 5 pdu 

type 6 pod 

type 7 room 

type 8 datacenter 

type 9 region 

type 10 root 

# buckets 

host bjgm-ceph-osd-13 { 
id -2 
# weight 2.120 
alg straw 


// 

// 
hash 0 # rjenkinsl 
item osd.4 weight 0. 
item osd.5 weight 0. 
item osd.6 weight 0. 
item osd.7 weight 0. 


item osd.16 weight 0.540 


// 


# vim crush.map 


到 osd.3 --» 


Bucket types 默认 包含 10 种 类 型 ， 也 可 以 自 定义 新 的 tyPe —» 


# do not change unnecessarily 


// 每 个 Bucket 内 部 都 支持 4 种 算法 : Uniform. List. Tree, 
Straw，4 种 算法 在 性 能 和 数据 重组 效率 方面 有 区 别 ， 默 认 情 
JLTCRUSH MAP 使 用 Straw 

// Hash 算法 0 表示 zjenkins1 
260 // OSD 的 权重 ， 默 认 情 况 由 OSD 的 容量 确定 
260 
260 
260 
// 本 例 中 osd.4 是 300GB 的 SAS 盘 ，osd.16 是 600GB 的 SSD， 
所 以 可 以 调整 为 两 倍 多 一 些 ， 因 为 SSD 的 性 能 要 比 SRAS 高 


item osd.17 weight 0.540 


} 
<!-- 省 略 相 似 的 host 输 出 --> 
root default { 
id -1 
# weight 8.480 
alg straw 
hash 0 # rjenkins1 


// 定义 root 类 型 的 bucket， 命 名 为 default 


# do not change unnecessarily 


// 此 处 也 涉及 Bucket 算 法 的 配置 ， 默 认 都 是 Straw 


item bjgm-ceph-osd-13 weight 2.120 
item bjgm-ceph-osd-14 weight 2.120 
item bjgm-ceph-osd-169 weight 2.120 
item bjgm-ceph-osd-170 weight 2.120 
// 定义 了 root 中 包含 4 个 item， 每 个 Item 表示 一 个 host 


# rules 

rule replicated ruleset ( // 定义 rule, 命名 为 replicated ruleset， 下 面 定义 详细 的 规则 
ruleset 0 E 
type replicated // 描述 规则 类 型 是 replicated， 默 认 就 是 这 个 
min size 1 // 定义 副本 的 最 少 个 数 ， 如 果 创 建 的 pool 不 满足 将 不 使 用 这 个 rule 
max_size 10 // 定义 副本 的 最 大 个 数 ， 如 果 创 建 的 pool 不 满足 将 不 使 用 这 个 rule 
step take default // 定义 副本 从 哪个 bucket 往 下 检索 cluster map tree 


step chooseleaf firstn 0 type host 
// 选择 副本 存放 的 位 置 
step emit // 执行 退出 


# end crush map 


其 中 ， 在 选择 副本 存放 的 位 置 时 ，0 表 示 所 有 副本 都 放 到 host 下 。 如 果 这 个 值 num 大 于 0， 小 于 副本 份 数 ， 表 示 num 份 都 放 在 host 下 ; 如 果 num 小 于 0， 表 示 副 本 份 数 nu 








4) 将 cursh.map 文 件 编译 成 CRUSH MAP 支 持 的 二 进 制 文件 。 


m 放 在 host 下 。 





[root@ceph-mm-173 ~]# crushtool -c crush.map -o crush.new.map 














5) 应 用 编译 好 的 CRUSH MAP 策 略 。 














[root@ceph-mm-173 ~]# ceph osd setcrushmap -i crush.new.map 
set crush map 


上 面 介绍 的 步骤 就 是 通过 手动 编辑 CRUSH MAP 配 置 文 件 来 实现 的 CRUSH 算 法 调 优 ， 其 中 可 以 调整 的 部 分 包括 OSD 的 权 各 








Man 


、bucket 的 定义 、Rule 规 则 ， 等 等 。 


2.Ceph 性 能 调 优 
























































Ceph 性 能 调 优 有 一 些 通用 的 方法 ， 但 是 大 多 数 还 是 和 实际 的 应 用 场景 有 关 ， 以 下 举 几 个 实际 的 应 用 场景 来 详细 地 介绍 一 下 调 优 的 理论 基础 和 实际 操作 方法 。 














(1) 场景 一 


在 Ceph 集 群 中 有 部 分 OSD 是 大 容量 的 SATA 盘 ， 这 些 大 容量 的 SATA 盘 的 性 能 表 定 没有 SAS 或 者 SSD 盘 的 好 ，Ceph 定 义 了 对 象 数 据 的 读 / 写 操作 都 是 在 主 OSD 上 进行 ， 这 样 就 需要 调整 CRUSH 算 法 变量 



































来 避免 这 部 分 使 用 SATA 盘 的 OSD 成 为 主 OSD， 而 调整 OSD 的 亲 和 度 可 以 使 指定 的 OSD 降 低 或 者 拒绝 成 为 主 OSD。 





先 介绍 一 下 OSD 亲 和 度 。 在 Ceph 集 群 中 ， 每 个 数据 被 分 割 为 一 个 或 多 个 对 象 ， 每 个 对 象 都 将 映射 到 唯一 一 个 PG 中 ， 每 个 PG 最 终 映射 到 OSD， 数 据 对 象 定义 的 保留 份 数 决 定 了 包含 这 个 对 象 的 PG 所 需 
要 映射 OSD 的 个 数 。 简 单 来 说 ， 如 果 一 个 对 象 需要 保留 3 份 数 据 ， 那 么 这 个 对 象 数据 映射 的 PG 就 会 同时 写 在 3 个 OSD 中 ， 其 中 一 个 是 主 OSD， 其 余 两 个 是 备份 OSD。OSD 亲 和 度 指 的 就 是 这 个 OSD 成 为 主 
OSD 的 优先 权 。 默 认 每 个 OSD 的 亲 和 度 权重 配置 都 是 |， 意思 是 所 有 的 OSD 都 有 可 能 成 为 主 OSD， 那 么 对 于 容量 大 的 OSD 来 说 ， 成 为 主 OSD 的 概率 就 高 。 这 个 结果 不 是 我 们 想 要 的 。 通 过 降低 OSD 的 亲 和 度 





















































权重 ， 来 使 配置 大 容量 SATA 盘 的 OSD 尽 可 能 少 地 被 指定 为 主 OSD， 具 体 实现 如 下 。 


























[root@bjgm-ceph-mm-29 ~]# ceph pg dump |grep 'active4clean'|grep 'N[4'|wc -1 
dumped all in format plain 

20 

<!-- 查看 当前 主 OSD 对 osd.4 的 pg 个 数 ， 结 果 是 20 个 --> 

[root@bjgm-ceph-mm-29 ceph config]# service ceph restart mon 
[root8bjgm-ceph-mm-29 ceph_config]# ceph osd primary-affinity osd.4 0.5 





注意 ， 关 于 上 述 代码 有 两 点 要 说 明 。 


1) 如 果 在 配置 过 程 中 出 现 如 下 报错 : 





[root@bjgm-ceph-mm-29 ~]# ceph osd primary-affinity osd.4 0.5 

Error EPERM: you must enable 'mon osd allow primary affinity = true' on the mons 
before you can adjust primary-affinity. note that older clients will no longer 
be able to communicate with the cluster. 





如 果 出 现 如 上 报错 ， 则 说 明 Monitor 没 有 打开 运行 调整 0SD 亲 和 度 的 开关 ， 需 要 在 Ceph Monitor 角 色 的 机 器 上 修改 Ceph 配 置 文件 /etc/ceph/ceph.conf， 在 其 中 添加 : 





[mon] 
mon osd allow primary affinity - true 





添加 之 后 重启 Moniter 进 程 。 























2) 使 用 ceph osd primary-affinity osd.40.5 命 令 调整 0sd.4 为 0.5 的 亲 和 度 之 后 ， 再 次 查看 当前 主 OSD 对 osd.4 的 pg 个 数 ， 结 果 是 8 个 ， 说 明 通 过 OSD 亲 和 度 权重 的 调整 ， 
生 了 变化 。 





PG 的 分 布 按 我 们 预计 的 效果 发 





[root@bjgm-ceph-mm-29 ceph config]# ceph pg dump |grep 'active+clean' \ 
Igrep '\[4'|wc -1 

dumped all in format plain 

8 


(2) 场景 二 

















在 Ceph 集 群 中 少 部 分 OSD 使 用 SSD 硬 盘 (比如 一 台 服 务 器 只 有 一 块 SSD 盘 ) ， 这 种 情况 下 ， 如 果 只 是 简单 地 将 这 块 SSD 盘 配置 成 一 个 OSD， 添 加 到 Ceph 集 群 中 ，SSD 的 作用 就 没有 完全 发 挥 了 ! 根据 


CRUSH 算 法 的 特点 ， 每 个 OSD 都 包含 两 部 分 ， 一 部 分 是 DATA， 另 一 部 分 是 Jjournal， 这 两 部 分 可 以 任意 定义 位 置 。 在 实际 进行 写 操作 时 ， 只 要 数据 写 入 Jjournal 之 后 就 会 返回 



































数据 缓存 空间 ， 所 以 ， 将 Journal 存 放 在 SSD 中 ， 性 能 会 有 显著 提升 ， 主 要 体现 在 IOPS 性 能 方面 。 按 照 这 个 思路 ， 可 以 将 SSD 划 分 为 10GB 大 小 的 分 区 ， 每 块 非 SSD 盘 在 ODSD 中 
Journal 都 存放 在 一 个 SSD 的 分 区 中 。 





实际 操作 步骤 如 下 : 


第 一 ， 手 动 将 SSD 盘 分 为 10GB 一 个 分 区 ， 不 需要 格式 化 。 




















第 二 ， 使 用 ceph-deploy 添 加 OSD 时 执行 。 


成 功 ，Journal 可 以 理解 为 一 个 
只 用 来 存放 DATA， 所 有 的 

















ceph-deploy osd prepare ceph-osd-192:/opt/ceph-datal:/dev/sdgl 
<!-- 使 用 ceph-deploy 初始 化 0SD，/opt/ceph-data 是 非 SSD 盘 格式 化 之 后 挂 载 的 目录 的 DATA 分 区 ，/dev/sdg1l 是 SSD 盘 上 划 出 的 一 个 10GB 分 区 ， 做 Journal 用 --» 


ceph-deploy osd activate ceph-osd-192:/opt/ceph-datal:/dev/sdgl 
<!-- 激 活 OSD --» 

















以 上 举 了 一 个 OSD 的 初始 操作 步骤 ， 其 他 的 OSD 初 始 化 也 用 这 种 方式 ， 只 是 Journal 都 指 到 SSD 对 应 的 分 区 。 如 此 操作 完 之 后 ， 进 行 |OPS 压 力 测试 ， 会 发 现 !OPS 的 性 能 提升 了 不 少 。 

















104 多 角度 评估 Ceph 在 KVM 虚 拟 化 环境 中 的 应 用 
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评估 Ceph 在 KVM 虚 拟 化 环境 的 应 用 ， 需 要 从 多 个 角度 来 考虑 。 首 先是 功能 ， 对 于 KVM 的 某 些 应 用 场景 ，Ceph 是 否 支持 ; 其 次 是 性 能 ， 这 点 非常 重要 ， 因 为 所 有 的 虚拟 机 最 终 都 是 针对 业务 的 ， 任 何 
为 虚拟 机 本 身 性 能 问题 而 导致 业务 受 影响 ， 都 可 能 导致 这 个 方案 被 否定 。 所 以 ， 本 节 将 用 比较 大 的 篇 幅 来 进行 性 能 相关 的 测试 ， 以 确保 实际 业务 上 线 之 后 的 稳定 和 可 靠 。 
































1.KVM 对 于 存储 相关 的 介绍 

















KVM 的 虚拟 机 硬盘 支持 多 种 格式 ， 最 常用 的 格式 主要 包含 aw 和 qcow2。raw 格 式 的 硬盘 文件 主要 是 一 些 块 设备 文件 ， 比 如 Linux 中 的 逻辑 卷 lv、 磁 盘 裸 设备 分 区 sdb2 等 。qcow2 格 式 文件 目前 应 用 得 非 
常 广 泛 ， 一 块 虚拟 机 的 硬盘 ， 对 应 于 宿主 机 上 一 个 qcow2 格 式 的 文件 ， 不 论 是 迁移 还 是 备份 都 非常 方便 。 从 性 能 方面 来 说 ，raw 格 式 比 qcow2 格 式 略 微 好 一 点 ， 但 是 可 以 在 创建 qcow2 的 时 候 ， 添 加 元 数据 
空间 预 分 配 来 提升 qcow2 的 性 能 。 预 分 配 元 数据 的 qcow2 文 件 性 能 和 raw 格 式 的 性 能 相同 。 在 Ceph 集 群 中 提供 的 CephFS 中 运行 qcow2 格 式 的 虚拟 机 ， 在 RBD 设 备 中 直接 运行 raw 格 式 的 虚拟 机 ， 是 否 可 
行 ， 下 面 主要 围绕 这 两 点 进行 展开 。 
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2. 测 试 环境 说 明 
下 面 是 一 些 测试 环境 的 说 明 。 
(1) 测试 拓扑 及 服务 器 配置 信息 


首先 来 看 一 下 Ceph 集 群 测试 环境 拓扑 图 ， 如 图 10-4 所 示 。 






































Ceph 集 群 测试 环境 ， 每 台 节 点 机 都 配置 3 块 网 卡 ， 分 别 为 : 管理 网 络 (管理 各 Ceph 节 点 机 ) 、Cluser 网 络 (Ceph 集 群 内 部 数据 传输 专用 ) 和 Public 网 络 (Ceph 集 群 对 外 提供 存储 服务 专用 ) 。 网 卡 全 
部 采用 干 兆 网 卡 。 节 点 机 配置 配置 清单 如 表 10-1 所 示 。 














(2) Ceph 集 群 配置 说 明 
Ceph 版 本 为 目前 最 新 的 版 本 0.87， 每 块 硬盘 为 一 个 ODSD 角 色 ，Data 和 Journal 都 在 同一 块 磁盘 上 ， 磁 盘 分 区 格式 为 xfs。 


(3) 性 能 测试 说 明 




















测试 工具 使 用 fio (fio 的 使 用 在 第 15 章 有 详细 介绍 ) 版 本 1.57。 所 有 的 性 能 测试 采用 如 下 命令 进行 。 
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图 10-4 ”Ceph 集 群 测试 环境 拓扑 图 
表 10-1 Ceph 节 点 机 配置 清单 


节点 主机 名 及 IP 地 址 硬件 配置 信息 Ceph 角色 


Hostname: bjgm-ceph-osd-13 : E5-2620 v2 

ClusterIP: 172.16.100.13 : 64GB MON-MDS-OSD 
PublicIP: 10.168.107.13 : 300*4 SAS 

Hostname: bjgm-ceph-osd-14 : E5-2620 v2 

ClusterIP: 172.16.100.14 : 64GB MON-MDS-OSD 
PublicIP: 10.168.107.13 ifi: 300*4 SAS 

Hostname: bjgm-ceph-osd-169 : E5-2620 

ClusterIP: 172.16.100.169 : 48GB MON-*MDS-OSD 


PublicIP: 10.168.107.169 : 300*4 SAS 

Hostname: bjgm-ceph-osd-170 : E5-2620 

ClusterIP: 172.16.100.170 : 48GB OSD 
PublicIP: 10.168.107.170 : 300*4 SAS 





1) 写 知 吐 测试 ， 命 令 如 下 : 





fio --filename-/mnt/ceph filesystem/fio --direct-1 --ioengine-libaio --rw-write 
--bs-4M --size-50G --runtime-300 --iodepth-16 --group reporting --name-test-read 





2) 读 吞 吐 测试 ， 命 令 如 下 : 





fio --filename-/mnt/ceph filesystem/fio --direct-1 --ioengine-libaio --rw-read 
--bs-4M --size-50G --runtime-300 --iodepth-16 --group reporting --name-test-read 





3) IOPS 写 测试 ， 命 令 如 下 : 





fio --filename-/mnt/ceph filesystem/fio --direct-1 --ioengine-libaio --bs-4k 
--rw-randwrite --size-50G --runtime-300 --iodepth-16 --group reporting 
--name-rand-write 





4) IOPS 读 测试 ， 命 令 如 下 : 





fio --filename-/mnt/ceph filesystem/fio --direct-1 --ioengine-libaio --bs-4k 
--rw-randread --size-50G --numjob-1 --runtime-300 --iodepth-16 --group reporting 
--name-rand-read 





命令 说 明 : 
“ direct=1， 测 试 过 程 绕 过 机 器 自 带 的 buffer。 
“ -rw=wtite， 表 示 测 试 任务 为 写 。 
“ --bs=4M， 表 示 测 试 数 据 块 大 小 为 4MB。 
- --size=50G， 表 示 测 试 文件 最 大 50GB。 
- -runtime=300， 表 示 测 试 时 间 为 300s。 
“ --iodepth=16， 表 示 I/O 测 试 队列 深度 。 
3. 以 FUSE 方 式 挂 载 CephFS 并 评估 各 项 性 能 
(1) 稳定 性 测试 


在 CephFS 稳 定性 测试 过 程 中 ， 主 要 采用 了 长 时 间 的 反复 读 / 写 、 删 除 操作 ， 过 程 中 还 模拟 各 类 故障 ， 其 中 包括 OSD 故 障 、OSD 删 除 、OSD 添 加 、CRUSH 策 略 调整 等 。 在 持续 进行 近 15 天 的 测试 过 程 
， 未 发 生 CephFs 不 可 访问 、 数 据 丢失 的 情况 。 由 此 可 知 ， 除 一 些 人 为 的 误 操作 之 外 ，CephFs 的 稳定 性 是 没有 问题 的 。 





(2) 性 能 测试 
测试 内 容 包 括 CephFS 香 吐 、CephFS 磁 盘 IOPS 性 能 。 


CephFs 吞 吐 性 能 ( 见 图 10-5) ，4M 顺 序 读 最 大 为 51.18MB/s，4M 顺 序 写 最 大 为 109.03MB/s。 从 结果 看 ,顺序 写 的 性 能 非常 好 ， 基 本 已 经 达到 了 干 兆 网 卡 的 性 能 上 限 。 





FUSE 方 式 挂 载 CephFS 否 吐 性 能 
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图 10-5 ”FUSE 方式 挂 载 CephFS 吞 吐 性 能 


CephFs 磁 盘 IOPs 性 能 ( 见 图 10-6) ，4K 随 机 读 最 大 IOPS 为 6688，4K 随 机 写 最 大 IOPS 为 9458。 随 机 读 / 写 的 性 能 相差 非常 大 ， 说 明 Ceph 对 于 写 默 认 是 有 优化 的 。 





FUSE 方式 挂 载 CephFS 磁 盘 IOPS 性 能 
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图 10-6 FUSE 方式 挂 载 CephFS 磁 盘 IOPS 性 能 
4 以 内 核 方式 挂 载 CephFS 并 评估 各 项 性 能 
(1) 稳定 性 测试 
内 核 方式 挂 载 CephFS 做 稳定 性 测试 ， 测 试 过程 和 操作 都 与 10.3.2 节 中 说 明 的 一 致 ， 从 结果 来 看 ，Ceph 0.87 的 稳定 性 和 可 靠 性 都 没有 问题 。 





在 使 用 内 核 方 式 挂 载 CephFS 时 需要 注意 一 点 : 在 Ceph 0.80 中 ， 在 使 用 Linux 中 的 cp 命令 复制 文件 的 过 程 中 ， 前 台 会 很 快 返回 命令 完成 ， 而 这 实际 是 Ceph 内 核 模块 的 一 个 异步 操作 ， 当 cp 返回 成 功 之 
后 ， 后 台 kworker 工 作 队列 进程 开始 往 OSD 上 写 数据 。 如 果 在 实际 数据 没有 写 完 成 时 ， 客 户 端 直接 重启 ， 会 造成 操作 数据 不 一 致 。 当 前 测试 环境 用 的 Ceph 0.87 已 经 修复 了 这 个 问题 ， 实 际 写 完 成 之 后 ， 才 
返回 cp 成 功 。 











(2) 性 能 测试 
测试 内 容 主要 包括 CephFs 知 吐 测试 和 IOPS 性 能 测试 。 


CephFSs 吞 吐 性 能 测试 结果 如 图 10-7 所 示 ，4M 顺 序 读 最 大 为 33.13MB/s，4M 顺 序 写 最 大 为 100.39MB/s。 





Kernel 方 式 挂 载 CephFS 吞 吐 性 能 
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图 10-7 Kernel 方 式 挂 载 CephFS 知 吐 性 能 


CephFS 磁 盘 IOPS 性 能 测试 结果 ， 如 图 10-8 所 示 ，4K 随 机 读 最 大 IOPS 为 248，4K 随 机 写 最 大 IOPS 为 798。 
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图 10-8 内核 方式 挂 载 CephFS 磁 盘 IOPS 性 能 


5. 虚 拟 机 硬盘 以 qcow2 格 式 运行 在 CephFS 上 的 各 项 评估 


qcow2 方 式 的 稳定 性 测试 方法 是 : 虚拟 机 硬盘 以 qcow2 格 式 运 行 在 CephFS 上 ， 包 含 两 个 CephFS 的 挂 载 方式 ， 第 一 是 FUSE 方 式 ， 第 二 是 内 核 方式 。 在 稳定 性 测试 过 程 中 创建 了 一 台 Windows 和 一 台 


Linux 的 虚拟 机 ， 并 在 虚拟 机 里 面 施加 磁盘 读 / 写 压力 ， 长 时 间 运 行 ，Windows 和 Linux 两 台 虚 拟 机 都 没有 出 现 死机 情况 。 


但 是 在 测试 过 程 中 ， 如 果 出 现 对 CephFS 本 身 进 行 大 文件 复制 ， 以 及 OSD 故 障 模拟 的 过 程 中 ， 发 现 Windows 虚 拟 机 会 出 现 蓝屏 ， 而 且 概 率 非 常 高 ， 之 后 进行 多 项 调整 ， 如 qcow2 metadata 预 分 


配 ，QEMU 升 级 为 2.0， 反 复 验 证 ，Windows 虚 拟 机 依然 出 现 蓝屏 。 因 此 ， 从 稳定 性 测试 结果 来 看 ， 虚 拟 机 硬盘 以 qcow2 格 式 运行 在 CephFS 上 是 非常 不 稳定 的 ， 因 为 实际 环境 中 OSD 故 障 是 无 法 避免 的 。 





6. 虚 拟 机 硬盘 以 raw 格 式 运行 在 RBD 上 的 各 项 评估 


(1) 稳定 性 测试 


使 用 Librbd 在 Ceph RBD 设 备 上 直接 运行 KVM 虚拟 机 ， 这 种 方案 ， 在 OpenStack、CloudStack 等 开源 平台 上 都 已 经 提供 支持 ， 笔 者 也 进行 了 近 两 周 不 断 的 压力 测试 ， 以 及 Ceph 集 群 故障 模拟 ， 都 未 出 


现 KYM 虚 拟 机 宕 机 或 者 蓝屏 的 情况 。 所 以 对 于 在 Ceph RBD 上 直接 运行 虚拟 机 ， 这 种 方案 是 完全 可 行 的 。 


(2) 性 能 评估 
在 Ceph RBD 设 备 上 直接 运行 CentOS 6.5 虚 拟 机 ， 在 虚拟 机 内 部 测试 磁盘 I/O 的 性 能 ， 主 要 包括 两 方面 。 
1) 吞吐 测试 。 


性 能 数据 如 图 10-9 所 示 ，4IM 顺 序 读 最 大 吞吐 2896.5MB/s， 说 明 默认 Ceph RBD 设 备 对 于 读 操作 是 有 cache 的 ，4M 顺 序 写 最 大 吞吐 64.05MB/s， 相 较 CephFS 写 吞吐 ， 性 能 低 40%。 





KVM 虚 拟 机 运行 在 RBD 设 备 中 虚拟 机 吞吐 性 能 
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10-0. KVM 虚拟 机 运行 在 RBD 设 备 中 虚拟 机 吞吐 性 能 











2) 磁盘 IOPS 性 能 测试 。 


性 能 数据 如 图 10-10 所 示 ，4K 随 机 读 最 大 IOPS 为 84873， 再 次 印证 了 Ceph RBD cache 对 于 读 默认 是 开启 的 : 4K 随 机 写 最 大 IOPS 为 2716， 在 实际 场景 中 虚拟 机 4K 随 机 写 性 能 超过 2000， 都 是 属于 磁盘 
性 能 很 高 的 ， 基 本 可 以 满足 大 部 分 游戏 服务 器 的 需求 。 





KVM 虚 拟 机 运行 在 RBD 设 备 中 虚拟 机 IOPS 性 能 
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图 10-10 KVM 虚 拟 机 运行 在 RBD 设 备 中 虚拟 机 IOPS 性 能 
7.Ceph 在 KVM 中 适用 的 场景 
通过 前 面 章 节 对 于 Ceph 集 群 功能 、 性 能 以 及 稳定 性 的 探讨 ， 基 本 可 以 发 掘 目前 Ceph 在 KVM 中 有 3 个 适用 的 场景 。 


“使 用 CephFS， 作 为 虚拟 机 的 集中 备份 。 


- 使 用 Librbd 将 虚拟 机 直接 运行 在 Ceph RBD 中 。 


“ 将 Ceph RBD 作 为 外 挂 云 硬盘 提供 给 虚拟 机 。 





后 面 章节 将 通过 案例 的 形式 ， 详 细 地 介绍 上 面 这 3 种 方式 在 KVM 中 的 应 用 。 











10.5 “Ceph 生 产 环 境 搭建 案例 

















本 节 主 要 分 享 Ceph 在 生成 环境 中 针对 不 同 应 用 的 搭建 方案 ， 从 规划 、 实 施 、 优 化 整个 过 程 都 将 进行 介绍 。 

















10.5.1 使 用 CephFs 集 中 备份 虚拟 机 


1.Ceph 集 群 前 期 规划 























CephFSs 备 份 集群 的 主要 功能 显然 是 用 于 备份 ， 其 实 并 不 局 限于 存放 虚拟 机 备份 文件 ， 其 他 的 一 些 业务 数据 也 同样 可 以 使 用 。 









































对 于 Ceph 节 点 机 的 选择 ， 首 要 条 件 是 大 硬盘 ， 硬 盘 可 以 选择 2TB*12 或 者 4TB*12。 每 台 节点 机 至 少 配置 3 个 网 口 ， 其 中 两 个 万 兆 网 口 ， 一 个 干 兆 网 口 。 两 个 万 兆 网 口 ， 一 个 作为 Ceph 集 群 内 部 交换 数据 
使 用 ， 另 一 个 作为 Ceph 集 群 对 外 提供 存储 设备 使 用 ; 干 兆 网 口 专门 作 管理 Ceph 集 群 使 用 。 如 果 条 件 允 许 的 话 ， 除 管理 网 口 之 外 ， 都 使 用 双 网 口 绑 定 ， 连 接 到 不 同 的 交换 机 上 ， 交 换 机 作 堆 释 。 这 样 不 仅 能 
提高 吞吐 ， 还 可 以 避免 网 口 的 单 点 故障 。 

















































































































Ceph 集 群 的 网 络 ， 特 别 是 用 于 Ceph 内 部 数据 同步 的 网 口 ， 连 接 在 同一 台 交 换 机 下 ， 尽 量 避 免 过 多 地 跨 交 换 机 流量 造成 性 能 下 降 。Ceph 集 群 默认 存储 池 的 副本 是 3 份 ， 所 以 至 少 需要 3 台 Ceph 节 点 才能 
组 成 一 个 状态 健康 的 存储 集群 。 
































Ceph 节 点 的 硬盘 可 以 直接 裸 盘 或 者 对 于 配备 RAID 卡 服务 器 在 RAID 设 置 里 面 为 每 块 盘 都 设置 一 个 RAID 0, 
































计算 集群 实际 容量 的 时 候 ， 至 少 考虑 一 台 Host 罕 机 之 后 ， 剩 余 的 容量 足够 存储 所 有 的 数据 。 这 样 即使 一 台 Host 宕 机 ， 也 可 以 是 让 Ceph 自 动 修复 问题 ， 恢 复 整个 集群 健康 的 状态 。 


2.Ceph 部 署 方法 及 注意 点 















































部 署 可 以 使 用 前 面 章节 介绍 的 ceph-deploy 工 具 ， 非 常 方便 管理 和 使 用 。 可 以 在 每 台 节 点 机 上 都 创建 0SD 或 MON 角 色 ，MDS 官 方 建议 使 用 一 个 就 够 了 ， 当 然 也 可 以 使 用 两 个 。 这 样 做 到 Ceph 每 种 角色 
都 有 匈 余 ， 避 免 单 点 故障 。 



























































客户 端 挂 载 ， 如 果 目 前 宿主 机 使 用 的 是 CentOS 6.5 或 者 CentOS 6 系列 ， 不 建议 升级 内 核 ， 再 使 用 内 核 方式 挂 载 CephFS， 使 用 Ceph-FUSE 方 式 挂 载 ， 对 于 宿主 机 系统 的 改动 最 小 。 对 于 宿主 机 内 核 的 
升级 ， 需 要 反复 测试 之 后 才能 进行 ， 否 则 不 充分 的 测试 对 于 KVM 虚 拟 机 来 说 可 能 是 致命 的 。 





















































Ceph 集 群 搭建 完成 之 后 ， 需 要 做 以 下 几 个 测试 。 








第 一 ， 性 能 测试 ， 通 过 多 客户 端 并 行 复制 的 方式 ,测试 CephFS 性 能 。 














第 二 ， 故 障 测试 ， 模 拟 OSD 故 障 ， 单 台 宿主 机 死机 ， 如 果 做 网 络 元 余 ， 则 断 开 一 个 网 口 测试 元 余 是 否 有 效 。 











10.5.2 ”使 用 Librbd 将 虚拟 机 运行 在 Ceph RBD 


1. 前 期 规划 及 说 明 























首先 需要 说 明 一 个 前 提 ， 使 用 Librbd 将 虚拟 机 直接 运行 在 Ceph RBD 上 ， 适 用 于 那些 对 磁盘 |/O 要 求 一 般 的 业务 ， 对 于 超 高 |/O 压 力 的 DB 类 的 应 用 ， 这 类 虚拟 机 不 适合 运行 在 Ceph RDE. REAR 
应 用 包括 Web 站 点 、 客 户 端 游戏 的 Game Server 服 务 器 、 大 部 分 手 游 等 对 于 |/O 要 求 不 是 非常 高 的 应 用 。 




































































Ceph 节 点 机 硬盘 可 以 选择 目前 主流 的 600GB 或 者 900GB 的 SAs 盘 ， 其 中 也 可 以 混 一 部 分 SSD 盘 。 
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网 络 方面 ， 对 外 提供 服务 的 Ceph Public 网 络 必须 使 用 两 个 ， 做 多 网 卡 绑 定 。 宿 主机 连接 Ceph 集 群 的 网 口 同样 需 要 使 用 两 个 网 卡 做 绑 定 。 这 点 非常 重要 ， 因 为 虚拟 机 硬盘 都 在 Ceph RBD 中 ， 如 果 网 络 
出 问题 ， 所 有 的 虚拟 机 内 部 都 会 报 I/O 读 / 写 错误 。 




































































使 用 Ceph RBD 运 行 虚 拟 机 ， 不 建议 在 默认 CRUSH 策 略 下 再 使 用 CephFS， 之 前 测试 过 程 中 发 现 一 旦 CephFS 有 写 压力 时 ，Ceph RBD 虚 拟 机 的 性 能 下 降 非常 明显 ， 下 降 约 50%。 所 以 在 默认 CRUSH 算 法 
的 情况 下 ，Ceph RBD 上 运行 虚拟 机 的 集群 最 好 是 独占 的 。 当 然 ， 可 以 通过 配置 CRUSH 算 法 ， 将 虚拟 机 所 在 的 Ceph RBD 存 储 池 限 定 在 指定 的 OSD 中 。 























2 .部署 方法 及 注意 点 





























配置 方法 可 以 参见 前 面 章节 ， 有 详细 的 说 明 ， 此 处 不 再 重复 了 。 使 用 Ceph RBD 运 行 虚拟 机 有 一 个 非常 大 的 优势 ， 即 可 以 直接 使 用 Ceph RBD 的 一 些 机 制 来 处 理 KVM 虚 拟 机 的 一 些 日 常 操作 ， 下 面 举 一 
些 实际 操作 的 例子 。 
























































1) 虚拟 机 快照 操作 。 





[root(ceph-host-01]£ rbd snap create vmpool/vm-centos6564@vm-centos6564.snap01 
<!-- 创 建 庶 拟 机 硬盘 vm-centos6564 的 快照 ， 快 照 在 vmpool1 存 储 池 中 ， 命 名 为 vm-centos6564.snap01 --> 

[root@ceph-host-01]# rbd snap ls vmpool/vm-centos6564 
SNAPID NAME SIZE 

2 wm-centos6564.snap01 10240 MB 

«1-- 5] h E huat ft vm-centos6564 05 He E 9| —» 

[rootéceph-host-01]$ rbd --pool vmpool snap rollback --snap vm-centos6564.snap01 
vm-centos6564 
Rolling back to snapshot: 100% completehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 
<!-- 将 快照 vm-centos6564.snap01 回 滚 到 虚拟 机 硬盘 vm-centos6564 --> T 
[root@ceph-host-01 ceph]# rbd --pool vmpool snap rm --snap vm-centos6564.snap01 
vm-centos6564 
<!-- 删 除 快照 rm-centos6564.snap01 --> 


2) 通过 RBD 镜 像 快照 创建 虚拟 机 。 





[root@localhost]# qemu-img convert -f qcow2 -O raw centos6564 rbd:vmpool/centos6564 
[root(ceph-host-01]$ rbd info vmpool/centos6564 
rbd image 'centos6564': 

size 10240 MB in 2560 objects 

order 22 (4096 kB objects) 


block name prefix: 


format: 1 


rb.0.26ea.238e1f29 


<!-- 默认 导入 的 镜像 为 格式 1， 不 支持 快照 克隆 一 -> 


[root@ceph-host-01]#rbd export vmpool/centos6564 -|rbd import --image-format 2 - 


vmpool/centos6564.template 
<!-- 转化 镜像 格式 为 format 2 -> 


[root@ceph-host-01 ~]# rbd snap create vmpool/centos6564.templateG8centos6564.vl 


«t-- 创建 模板 快照 --> 


[root(ceph-host-01 ~]# rbd snap protect vmpool/centos6564.template@centos6564.v1 


<! 一 -锁定 模板 快照 ， 因 为 后 续 克 隆 操作 都 是 这 个 快照 基础 上 做 增 量 ， 


所 以 这 个 快照 不 能 删除 --> 


[root(ceph-host-01 ~]# rbd info vmpool/centos6564.template@centos6564.v1 
rbd image 'centos6564.template': 
size 10240 MB in 2560 objects 


order 22 


block name prefix: 


format: 2 
features: 


protected: 
&, format22, &4layering, 
[rootéceph-host-01 ~]# rbd clone vmpool/centos6564.template8centos6564.vl vmpool/ 


<1-- 查 看 快照 信 





(4096 kB objects) 
rbd data.125192ae8944a 


layering 


True 


centos6564-149.disk0 


<! 一 从 


已 经 锁定 保护 -一 > 


快照 centos6564 .v1 克隆 一 个 镜像 ， 命 名 为 centos6564-149.disk0，Libvirt 可 以 直 


接 将 这 个 镜像 作为 虚拟 机 硬盘 使 用 ， 虚 拟 机 克隆 创建 完成 -> 





以 上 两 种 RDB 相 关 操作 ， 在 KYM 直接 应 用 Ceph RDB 设 备 运行 虚拟 机 的 过 程 中 很 常 





10.5.3 在 CephFS 上 创建 qcow2 文 件 作为 云 硬盘 


在 CephFS 上 直接 创建 qcow2 格 式 的 硬盘 文件 ， 然 后 直接 挂 载 到 虚拟 机 中 作为 云 硬盘 来 使 用 ， 用 于 备份 或 者 运行 磁盘 /O 不 高 的 应 用 。 其 主 




















中 也 不 需要 复制 数 





在 部 署 的 前 期 规划 ， 节 点 机 硬盘 选 型 可 以 适当 使 
候 ，Ceph 节 点 机 的 CPU 负载 会 比较 高 。 例 如 E5-2620 的 CPU， 测 试 IOPS 压 力 ， 


B. 














CPU, 


体 配置 可 以 参见 前 面 的 章节 。 














10.6 ”Ceph 常 见 故障 处 理 


任何 一 个 系统 或 者 应 














对 于 Ceph 集 群 的 故障 主要 分 为 两 类 。 


1) 第 一 类 是 常规 故障 。 例 如 硬盘 故障 ， 





























， 第 二 种 克隆 创建 虚拟 机 的 过 程 非常 快 。 














的 优势 在 于 容量 可 以 做 到 不 限制 地 扩充 ， 在 虚拟 迁移 的 过 程 











SSD 来 提高 Ceph 集 群 的 整体 IOPS。CPU 不 要 选择 非常 低 的 ， 比 如 ， 志 强 E5504 之 前 的 CPU， 因 为 在 测试 过 程 中 发 现 ，Ceph 集 群 \OPS 压 力 大 的 时 
当 IOPS 压 力 达到 4000 左 右 时 ，CPU 整 体 利 





























率 接近 40%。 所 以 为 了 使 CephFS 能 够 提供 较 好 的 性 能 ， 建 议 使 





性 能 较 好 的 




















， 都 无 法 做 到 100% 的 无 故障 ， 那 么 在 出 现 故 障 的 时 候 ， 如 何 快速 地 响应 和 恢复 就 变 和 


因为 每 个 Ceph 集 群 都 有 相当 多 数量 的 OSD， 一 般 而 言 ， 一 个 OSD 对 应 一 块 硬盘 。 硬 盘 故 障 最 为 常见 





得 至 关 重 要 。 


。 这 类 故障 一 般 的 处 理 方式 如 下 : 





[root@bjgm-ceph-osd-13 ~]# 


<!-- 将 出 错 的 0SD 从 Ceph 集群 中 跑 出 --> 


# ceph osd crush remove osd.15 


[root@bjgm-ceph-osd-13 ~ 
<!-- 从 crush map 中 移 除 错误 的 
[root@bjgm-ceph-osd-13 ~ 
<!-- 删 除 GSD 认 证 信息 --> 
[root@bjgm-ceph-osd-13 ~ 
<!-- 删 除 OSD --> 
[root@bjgm-ceph-osd-13 ~ 
dev/sdc2 


OSD ==> 


ceph osd out osd.15 


# ceph auth del osd.15 


# ceph osd m osd.15 


#ceph-deploy osd prepare ceph-osd-192:/opt/ceph-data:/ 


<!-- 使 用 ceph-deploy 初 始 化 磁盘 ， 做 此 操作 之 前 需要 先 格式 化 硬盘 ， 并 挂 载 到 相应 目录 --> 





[root@bjgm-ceph-osd-13 ~ 
dev/vdc2 


$ceph-deploy osd prepare ceph-osd-192:/opt/ceph-data:/ 


«1--4& Jl] ceph-deployi$ti&OSD --> 














2) 第 二 类 故障 是 指 由 Ceph 本 身 原 因 导致 的 故障 。 比 如 网 络 故障 ， 因 为 Ceph 集 群 作为 分 布 式 文件 系统 ， 各 种 数据 传输 都 依赖 于 网 络 ， 所 以 一 旦 出 现 网 络 故障 ，Ceph 集 群 基本 处 于 僵尸 的 状态 ， 数 据 不 





目前 来 看 ， 并 没有 非常 出 色 的 监控 Ceph 集 群 状态 的 工具 ， 这 里 介绍 一 个 比较 常 











10.6.1 ”Ceph 集 群 监控 状态 检查 














可 读 、 不 可 写 ， 直 至 网 络 恢复 。 所 以 避免 这 种 故障 ， 最 好 的 办 法 就 是 在 设计 和 规划 的 时 候 ， 必 须 

















避免 网 络 


下 载 Ceph dashboard 安 装 包 : https://github.com/Crapworks/ceph-dash/archive/master.zip。 


解压 之 后 ， 直 接 运行 python ceph-dash.py。 



































层面 的 单 点 故障 。 


用 的 Ceph dashboard 软 件 ceph-dash。 








使 用 浏览 器 访问 http:Wip: 5000， 如 果 出 现 如 下 报错 ， 是 因为 缺少 了 autoescape 模 块 。 
"message": "'module' object has no attribute 'autoescape'", 
"code": 

} 

则 解决 方法 如 下 : 





easy install pip 


pip install --upgrade jinja2 











最 终 正常 之 后 ， 显 示 如 图 10-11 所 示 的 界面 。 











Ceph 


Ceph 


uster OSD Status 


Cluster Placement Group Status 


Storage Write / second PG Status 





完整 错误 信息 


17.78 kB 


Read / second 


0 bytes 


* 
Cluster storage utilizati 


Operations | second 








510-11 ”ceph-dash 软 件 展 示 

















[root@bjgm-ceph-osd-13 ~]# ceph -s 
cluster 9b958522-b4b1-4622-b9fd-0e3e333cf7fe 
health HEALTH WARN 10 requests are blocked » 32 sec 
monmap e3: 1 mons at (bjgm-ceph-osd-13-10.168.107.13:6789/0), election epoch 1, 


quorum 0 


bjgm-ceph-osd-13 


mdsmap e46: 1/1/1 up (0-bjgm-ceph-osd-13-up:active] 
osdmap e6363: 24 osds: 24 up, 24 in 
pgmap v2986164: 768 pgs, 4 pools, 379 GB data, 99956 objects 


1067 


GB used, 7617 GB / 8684 GB avail 


768 activetclean 














原因 分 析 : 从 提示 信息 上 看 ， 可 以 知道 有 10 个 请 求 的 响应 时 间 超 过 32s， 说明 有 OSD 的 响应 速度 缓慢 。 通 过 ceph health detail 命 令 查看 更 














体 的 报错 。 





[root@bjgm-ceph-osd-13 ~]# ceph health detail 

HEALTH WARN 10 requests are blocked » 32 sec; 1 osds have slow requests 
10 ops are blocked » 16777.2 sec 

10 ops are blocked » 16777.2 sec on osd.23 


从 显示 的 信息 可 以 定位 是 在 请 求 osd.23 时 延迟 较 大 。 


处 理 方法 : 将 


完整 错误 信息 


向 应 缓慢 的 osd.23 从 Ceph 集 群 中 撤除 ， 问 题 即 可 解决 。 











[root@ceph-node-173 ~]# ceph -s 
cluster 15c8236b-4238-4568-8b2f-7226b450e438 
health HEALTH WARN clock skew detected on mon.ceph-node-174, mon.ceph-node-175 
monmap e3: 3 mons at (ceph-node-173-172.16.100.173:6789/0, ceph-node-174- 
172.16.100.174:6789/0, ceph-node-175-172.16.100.175:6789/0), election epoch 
24, quorum 0, 1, 2 ceph-node-173, ceph-node-174, ceph-node-175 
mdsmap e6: 1/1/1 up (0-ceph-node-176-up:active), 3 up:standby 
osdmap e37: 4 osds: 4 up, 4 in 
pgmap v1783: 192 pgs, 3 pools, 10240 MB data, 2580 objects 
30899 MB used, 129 GB / 159 GB avail 
192 activetclean 


原因 分 析 : 这 个 报错 是 因为 Ceph mon 角 色 服 务 器 之 间 存 在 时 间 不 一 致 。 











处 理 方法 : 在 Ceph mon 和 角色 服务 器 上 配置 NTP， 或 者 在 Ceph 配 置 文 件 中 [global] 下 添加 mon_clock_drift_allowed=1， 问 题 即 可 解决 。 





























本 章 从 Ceph 的 架构 、 部 署 、 算 法 调 优 、 应 用 场景 等 方面 进行 了 介绍 ， 着 重 列举 了 Ceph 在 KVM 中 一 些 常见 的 应 用 场景 ， 并 且 从 功能 和 性 能 上 对 Ceph 做 了 评估 。 总 体 来 说 Ceph 是 一 个 非常 强大 的 分 布 式 
文件 系统 ， 而 且 从 发 展 的 形式 来 看 ， 将 来 的 前 景 是 非常 不 错 的 。 如 果 读 者 对 分 布 式 文件 系统 感 兴趣 ， 不 妨 把 这 章 的 内 容 作为 深入 学 习 Ceph 的 开始 ， 更 深入 和 详细 的 内 容 可 以 参见 Ceph 的 官 
网 http://ceph.com/。 
































下 一 章 为 读者 开始 介绍 热门 的 云 管理 平台 OpenStack。 


第 三 篇 KVM 虚 拟 化 管理 平台 


“第 11 章 ”利用 OpenStack 管 理 KVM 
“第 12 章 ”利用 OpenNebula 管 理 KVM 


“第 13 章 ”其 他 管理 平台 介绍 


第 11 章 ”利用 OpenStack 管 理 KVM 



































KVM 提 供 了 在 Linux 系 统 中 运行 虚拟 机 的 能 力 ， 要 在 生产 环境 中 大 规模 使 用 ， 便 捷 的 管理 手段 也 是 必 不 可 少 的 。 提 到 管理 虚拟 机 的 软件 ， 目 前 最 流行 、 使 用 最 广泛 的 就 是 OpenStack， 本 章 将 为 读者 介 
绍 OpenStack。 由 于 本 书 主要 内 容 为 KVM ， 而 OpenSstack 又 非常 复杂 ， 所 以 本 章 只 介绍 OpenStack 的 搭建 及 笔者 在 生产 环境 中 的 一 些 实践 经 验 ， 如 果 读 者 想 要 全 面 地 了 解 OpenStack， 还 请 阅读 
Openstack 官 方 相关 资料 。 












































11.1 _ Openstack 搭 建 


本 节 简 单 介绍 一 下 Openstack， 然 后 以 Openstack 的 Icehouse 版 本 为 例 ， 介 绍 在 Ubuntu 12.04 上 搭建 一 套 Openstack 环 境 的 方法 。 按 照 功能 不 同 ， 把 服务 器 分 为 控制 节点 和 计算 节点 ， 这 也 是 实际 应 
中 常见 的 OpenStack 架 构 。 


Qua 


本 书 中 介绍 的 内 容 ， 基 本 都 是 基于 CentOS 系 统 。 本 章 介绍 的 OpenStack 是 在 笔者 的 桌面 虚拟 化 生产 环境 中 使 用 的 ， 宿 主机 都 使 用 Ubuntu 系统 ， 所 以 本 章 介绍 的 OpenStack 搭 建 是 基于 Ubuntu。 




















11.1.1 Openstack 简 介 

















OpenStack 是 一 款 美国 国家 航空 航天 局 和 Rackspace 合 作 研 发 的 云 平台 管理 软件 ， 以 Apache 许 可 证 授权 ， 并 且 是 自由 软件 和 开放 源 代码 项 目 。OpenStack 由 Keystone、Glance、Nova、Neutron、 
Cinder、Horizon 和 Swift 等 组 件 构成 : 

















“ Keystone 负 责 认证 、 用 户 管理 工作 ; 

Glance 负责 镜像 管理 ; 

“ Nova 负 责 管理 计算 资源 ; 

* Neutron 负 责 康 拟 化 网 络 的 管理 ; 

:Cinder 提 供 块 存储 服务 ; 

* Horizon zt OpenStack f] dashboard, 4&4 7 38 33 A H É ££ OpenStack $2 27 fi ; 


“ Swift 提 供 对 象 存储 服务 。 


11.1.2 ”控制 节点 的 安装 


在 安装 控制 节点 之 前 ， 要 对 服务 器 的 环境 做 一 些 准备 工作 ， 具 体 如 下 。 





服务 器 环境 准备 : 
- 操作 系统 为 Ubuntu 12.04 LTS。 


- 双 网 卡 eth0、ethl ， 以 笔者 的 环境 为 例 ， 网 卡 配 置 文件 如 下 : 





auto lo 

iface lo inet loopback 
# eth0 网 卡 配 置 

auto eth0 

iface eth0 inet static 
address 192.168.11.128 
netmask 255.255.255.0 
gateway 192.168.11.1 
#ethl 不 配置 IP 

auto ethl 

iface ethl inet static 
address 0.0.0.0 





- 系统 盘 /dev/sda 30GB, ， 数 据 盘 /dev/sdb 50GB 。 


1. 配 置 apt 的 源 








1) 由 于 国外 的 Ubuntu 源 比较 慢 ， 笔 者 这 里 蔡 换 为 国内 比较 常用 的 163 的 源 ， 把 /etc/apt/sources.list 蔡 换 为 以 下 内 容 。 

















deb http://mirrors.163.com/ubuntu/ precise main restricted 

deb-src http://mirrors.163.com/ubuntu/ precie main restricted 

deb http://mirrors.163.com/ubuntu/ precise-updates main restricted 
deb-src http://mirrors.163.com/ubuntu/ precise-updates main restricted 
deb http://mirrors.163.com/ubuntu/ precise universe 

deb-src http://mirrors.163.com/ubuntu/ precise universe 

deb http://mirrors.163.com/ubuntu/ precise-updates universe 

deb-src http://mirrors.163.com/ubuntu/ precise-updates universe 

deb http://mirrors.163.com/ubuntu/ precise multiverse 

deb-src http://mirrors.163.com/ubuntu/ precise multiverse 

deb http://mirrors.163.com/ubuntu/ precise-updates multiverse 

deb-src http://mirrors.163.com/ubuntu/ precise-updates multiverse 

deb http://mirrors.163.com/ubuntu/ precise-backports main restricted universe multiverse 
deb-src http://mirrors.163.com/ubuntu/ precise-backports main restricted universe multiverse 
deb http://mirrors.163.com/ubuntu/ precise-security main restricted 
deb-src http://mirrors.163.com/ubuntu/ precise-security main restricted 
deb http://mirrors.163.com/ubuntu/ precise-security universe 

deb-src http://mirrors.163.com/ubuntu/ precise-security universe 

deb http://mirrors.163.com/ubuntu/ precise-security multiverse 

deb-src http://mirrors.163.com/ubuntu/ precise-security multiverse 

deb http://extras.ubuntu.com/ubuntu precise main 

deb-src http://extras.ubuntu.com/ubuntu precise main 

root8openstack:^£ apt-get update 





2) 添加 lcehouse 的 源 。 





root@openstack:~# apt-get install -y python-software-properties 
root@openstack:~# add-apt-repository cloud-archive:icehouse 
root8openstack:^£ apt-get update 











DH 


Openstack 集 群 规模 可 能 会 达到 几 十 到 上 百 个 节点 ， 时 间 同 步 对 于 各 项 服务 能 正常 工作 非常 重要 ， 




















此 在 这 一 步 把 ntp 服 务 也 一 起 安装 了 。 





root@openstack:~# apt-get install ntp -y 





2. 安 装 RabbitMQ 


Openstack 各 个 组 件 之 间 通 信 靠 的 是 支持 AMQP 的 Messaging 服 务 软件 ，RabbitMQ、Qpid、ZzeroMQ 等 都 被 OpenStack 所 支持 。 这 里 选择 最 常 
的 具体 内 容 会 在 11.2.1 节 中 展开 介绍 。 





























的 RabbitMQ， 本 节 只 是 介绍 安装 过 程 ，RabbitMQ 





root8openstack:^4 apt-get install rabbitmq-server -y 





RabbitMQ 安 装 完 后 默认 的 用 户 为 guest， 密 码 为 guest。 为 了 安全 ， 通 常 都 要 改 掉 这 个 密码 ， 命 令 如 下 : 





root@openstack:~#rabbitmqctlchange password guest kvmpractice 





3. 安 装 MySQL 数 据 库 











Openstack 的 主要 组 件 如 Nova、Glance 等 都 需要 数据 库 的 支持 ， 这 里 依然 选择 最 常用 的 MySQL， 首 先 安装 软件 包 。 

















root@openstack:~#apt-get install -y mysql-server python-mysqldb 





安装 过 程 中 会 提示 设置 MySQL 的 root 密 码 。MySQL 默 认 只 监听 127.0.0.1， 如 果 要 远程 访问 MySQL 数 据 库 的 话 ， 需 要 修改 配置 文件 并 重启 服务 。 





root@openstack:~# sed-i's/127.0.0.1/0.0.0.0/g' /etc/mysql/my.cnf 
rootGopenstack:-4 service mysql restart 





4. 安 装 Keystone 


Keystone 是 OpenStack 的 认证 组 件 ， 主 要 起 以 下 两 个 作用 : 





“ 管理 用 户 及 其 权限 。 


“ 管理 OpenStack 的 可 用 service 列 表 ， 并 提供 这 些 service 的 API endpoint。endpoint 通 常 是 一 个 URL， 是 访问 该 service 的 接口 。 











OpenStack 的 其 他 组 件 都 需要 在 Keystone 中 创建 用 户 并 注册 endpoint， 因 此 要 第 一 个 安装 Keystone。 











1) 安装 软件 包 。 





root@openstack:~# apt-get install -y keystone 





2) 修改 配置 文件 ，[DEFAULT] 中 有 两 处 需要 修改 。 





[DEFAULT] 
admin token-kvmpractice 
connection-mysql://keystone:kvmpractice(localhost/keystone 








Keystone 刚 安装 完 的 时 候 是 不 存在 管理 员 用 户 的 ，admin_token 是 获取 Keytone 的 管理 权限 的 唯一 方法 ， 因 此 这 个 字符 串 非常 重要 ， 在 生产 环境 中 要 尽量 设置 得 复杂 一 些 。 


























3) 创建 数据 库 ， 用 户 名 和 密码 与 配置 文件 保持 一 致 。 








# 默 认 会 生成 一 个 SQLite 数 据 库 ， 为 了 避免 冲突 ， 先 删 掉 

rootüopenstack:-4 rm /var/lib/keystone/keystone.db 

root8openstack:-fmysql -u root -p 

mysql» CREATE DATABASE keystone; 

mysql» GRANT ALL PRIVILEGES ON keystone.* TO 'keystone'8'192.168.11.128'IDENTIF 
IED BY 'kvmpractice'; 

mysql» GRANT ALL PRIVILEGES ON keystone.* TO 'keystone'G'$'IDENTIFIED BY 
'kvmpractice'; 

mysql» exit 





4) 初始 化 数据 库 。 





root@openstack:~# keystone-manage db sync 





命令 执行 过 后 ， 数 据 库 就 会 建 好 Keystone 要 用 的 表 。 





mysql» show tables; 


| ec2 credential | 
| endpoint | 
| metadata | 
| migrate version | 
| role | 
| service | 
| tenant | 
| token | 
| user | 
| user tenant membership | 











启 Keystone 服 务 。 





root@openstack:~#service keystone restart 





6) 验证 服务 是 否 正常 。 





root@openstack:~# service keystone status 
keystone start/running, process 12996 











然后 使 用 Keystone 的 命令 行 client 验 证 Keystone 是 不 是 正常 工作 ， 这 时 就 要 用 到 admin_token 了 。 

















# 设 置 环境 变量 ， 要 访问 OpenStack 的 服务 就 必须 先 通 过 Keystone 的 认证 

root@openstack:~# vim openrc 

export OS SERVICE TOKEN-kvmpractice export OS SERVICE ENDPOINT-http://192.168.11. 
128:35357/v2.0 i e 

root8openstack:^£ source openrc 

root@openstack:~# keystone user-list 

# 没 有 报错 ， 说 明 配 置 成 功 。 由 于 还 没有 创建 任何 用 户 ， 所 以 输出 为 空 

















7) 创建 一 个 管理 员 用 户 ， 用 于 管理 OpenStack 集 群 。 





Keystone 中 有 user、role、tenant 这 几 个 概念 ， 一 个 user 可 以 在 不 同 的 tenant 内 有 不 同 的 role (角色 ) . 





root@openstack:~# source openrc 





# 创 建 admin 用 户 
root8openstack:^4 keystone user-create --name-admin --pass-kvmpractice 
+---------- 4-- 
Property | Value | 
4---------- +---------------------------------- 十 
email | | 


enabled | True | 

id | e7a10d8df1844c6b837a2595343cb784 | 
name | admin | | username | admin | 
+---------— + 

# 创 建 admin 角 色 
root@openstack:~# keystone role-create --name-admin 
二 -一 一 += 
Property | Value | 

4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

id | 074f9af857ba44b182241b79d2cf899c | 

name | admin | 

4------------- 十 ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

# 创 建 admin tenant 

root@openstack:~# keystone tenant-create --name-admin --description-"Admin 
Tenant" 

e 








T 
Property | Value | 

4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

description | Admin Tenant | 

enabled | True | 

id | 4d5675f9c8f04831ac83c8acad96d34b | 

name | admin | 

4------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

# 在 admin tenant 中 赋予 admin 用 户 admin 角 色 

root@openstack:~# keystone user-role-add --user-admin --tenant-admin --role-admin 
rootéopenstack:^* keystone user-role-add --user-admin --role- member  --tenant-admin 





4: 








8) 定义 service 和 endpoint。 


Openstack 中 的 所 有 组 件 都 要 在 Keystone 中 创建 相应 的 service 和 APl endpoint，Keystone 本 身 要 跟 其 他 服务 通信 ， 











此 也 需要 创建 service 和 endpoint。 








root@openstack:~# keystone service-create --name-keystone --type-identity --de- 
ipti OpenStack Identity" 





一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
Property | Value | 
4------------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


description | OpenStack Identity | 

enabled | True | 

id | 6d33db7219ac4dcfab41842d6e73287b | 

name | keystone | 

type | identity | 

4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

root@openstack:~# keystone endpoint-create --service-id=$ (keystone service-list 
awk '/ identity / (print $2)') --publicurl-http://192.168.11.128:5000/v2.0 
--internalurl-http://192.168.11.128:5000/v2.0 
—-adminurl-http://192.168.11.135357/v2.0 

4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


adminurl| http://192.168.11.128:35357/v2.0 | 

id | 75b8cfbb7f£754882bade385a030dcfb6 | 
internalurl |http://192.168.11.128:5000/v2.0 | 
publicurl| http://192.168.11.128:5000/v2.0| 
region | regionOne| 

service id| 6d33db7219ac4dcfab41842d6e73287b | 
-—-- ---—— 











9) 验证 配置 是 否 生效 。 














在 有 了 admin 用 户 后 ， 就 不 建议 使 用 admin_token 了 ， 先 把 之 前 设置 的 环境 变量 删除 ， 然 后 设置 新 的 变量 。 























root@openstack:~# vim openrc 

export OS USERNAME-admin 

export OS PASSWORD-kvmpractice 

export OS TENANT NAME-admin 

export OS AUTH URL-http://192.168.11.128:35357/v2.0 
root8openstack:-4 source openrc 

root@openstack:~# keystone user-list 





二 一 一 一 一 4--------— 十 一 -一 -一 -一 十 一 -一 一 一 -一 + 
| id | enabled | email | name | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 -一 一 一 -一 十 一 -一 一 一 一 一 十 
| e7a10d8df1844c6b837a2b95343cb784 | True | None | admin | 

+ —L- 二 








如 果 keystone user-list 能 执行 成 功 ， 则 说 明 前 面 创建 的 admin 用 户 和 Keystone 的 endpoint 都 生效 了 。 


5. 安 装 镜像 组 件 Glance 


Glance 是 负责 管理 Openstack 镜 像 的 服务 ， 为 用 户 提供 存储 和 检索 镜像 的 功能 。 用 户 可 以 通过 Glance 添 加 


1) 安装 软件 包 。 














于 创建 instance 的 镜像 。 





root@openstack:~#apt-get install -y glance 





2) 编辑 配置 文件 。 


Glance 有 两 个 主要 的 配置 文件 /etc/glance/glance-api.conf 和 /etc/glance/glance-registry.conf， 需 要 修改 的 配置 项 是 一 致 的 ， 如 下 : 





[database] 

#sqlite db = /var/lib/glance/glance.sqlite | ik—4fik4f4y 
connection = mysql://glance:kvmpractice0192.168.11.128/glance 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 

auth host = 192.168.11.128 

auth port = 35357 

auth protocol - http 

admin tenant name = service 

admin user - glance 

admin password = kvmpractice 

[paste deploy] 

flavor-keystone 




















3) 创建 数据 库 ， 用 户 名 和 密码 跟 配 置 文件 保持 一 致 。 





# 先 删除 Ubuntu 的 软件 包 自 带 的 SQLite 文 件 

root8openstack:-^trm /var/lib/glance/glance.sqlite 

root8openstack:-imysql -u root -p 

mysql» CREATE DATABASE glance; 

mysql» GRANT ALL PRIVILEGES ON glance.* TO 'glance'8'192.168.11.128' 

IDENTIFIED BY 'kvmpractice'; 

mysql» GRANT ALL PRIVILEGES ON glance.* TO 'glance'G'$' IDENTIFIED BY 'kvmpractice'; 





4) 初始 化 数据 库 。 





root@openstack:~#glance-manage db sync 





5) 在 Keystone 中 创建 Glance 的 user、service 和 endpoint。 





@@ 创 建 名 为 service 的 tenant， 后 面 安装 其 他 组 件 时 也 都 要 用 到 。 





rootGopenstack:-4 keystone tenant-create --name-service 
十 


| Property | Value | 

4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| description | None | 

| enabled | True | 

| id | 0a7667588f714fcd9336fb5ff5133599 | 

| name | service | 






































@ 创 建 glance 用 户 ， 并 在 service 这 个 tenant 中 赋予 glance 用 户 admin 角 色 ， 用 户 密码 要 与 配置 文件 [keystone_authtoken] 中 保持 一 致 。 




















root@openstack:~# keystone user-create --name-glance --pass-kvmpractice 
4---------- 4-- 
| Property | Value | 

4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| email | | 

| enabled | True | 

| id | d0c9969dc1f£3401a87c3c7c2fd06c44d | 

| 

| 





name | glance | 
username | glance | 
4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
root@openstack:~# keystone user-role-add --user-glance --tenant-service --role-admin 





@ 创 建 service 和 API endpoint, 





root@openstack:~# keystone service-create --name=glance --type-image 
--description-"OpenStack Image Service" 


4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
Property | Value | 
4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


description | OpenStack Image Service | 
enabled | True | 

id | 9fb4a282b9574fc6a35eb864728d3ald | 
name | glance | 

type | image | 





root@openstack:~# keystone endpoint-create  --service-id=$ (keystone service-list 
awk '/ image / (print $2}') 

--publicurl-http://192.168.11.128:9292 

--internalurl-http://192.168.11.128:9292 








137706393£584f289a7a9673211ff4da | 


| | 

| internalurl | http://192.168.11.128:9292 | 
| publicurl | http://192.168.11.128:9292 | 
| region l regionOne | 

| service id | 9fb4a282b9574fc6a35eb864728d3ald | 
4---------—--- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 





6) 重启 服务 。 








root@openstack:~# service glance-registry restart 
root@openstack:~# service glance-api restart 





7) 验证 服务 是 否 正常 。 





root8openstack:^4 service glance-registry status 
root8openstack:^4 service glance-api status 
root@openstack:~# source openrc 
root@openstack:~# glance-image list 





下 面 添加 一 个 镜像 。 





root@openstack:~# mkdir /tmp/images 

root@openstack:~# cd /tmp/images/ 

#cirros 是 一 个 精简 的 Linux 系 统 ， 为 了 方便 我 们 将 以 此 作为 测试 镜像 

root@openstack:~# wget http://cdn.download.cirros-cloud.net/0.3.2/cirros-0.3.2-x86_ 
64-disk.img 

root8openstack:/tmp/imagest glance image-create --name-cirros --disk-format-qcow2 
--container-format bare --is-public-true < cirros-0.3.2-x86 64-disk.img 

十 -一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

Property | Value l 





checksum | GAdTclod2bfG0c92c14662941cb7913 | 
container format | bare | 

created at | 2014-12-30T08:19:16 | 

deleted | False | 

deleted at | None | 

disk format | qcow2 | 

id | f32326d6-a8af-4de6-82e3-2a978b1a7627 | 
is public | True | 

min disk | 0 | 

min ram | O | 

name | cirros 

owner | 4d5675f9c8f04831ac83c8acad96d34b | 
protected | False | 

size | 13167616 | 

status | active | 

updated at | 2014-12-30T08:19:16 | 

virtual size | None | 





rootQopenstack:/tmp/imagest glance image-list 





4------------------- 4----------- 4---------- 4-------------- 4---------- 4-------- 十 
ID | Name | Disk Format | ener Foner | Size | Status | 

4------------------- 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4---------- 4-------- 十 
f32326d6-a8af-4de6-82e3- 32207001a7627 | cirros | qcow2 | pere l I1 01e | active | 





-+-----------+--------- 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 


W 入 Glance 后 ， 原 文件 就 不 需 T" 1 
root@openstack:~# rm /tmp/images/cirros-0.3.2-x86 64-disk.img 

















测试 镜像 已 经 成 功 地 加 入 到 了 Glance 中 。 如 果 读 者 想 添加 自己 制作 的 镜像 ， 可 以 参考 本 书 关 于 制作 虚拟 机 镜像 的 第 16 章 内 容 。 








6. 安 装 Nova 组 件 





Nova 负 责 OpenStack 的 计算 管理 ， 由 多 个 组 件 构 成 。 控 制 节点 上 要 安装 除了 nova-compute 外 的 所 有 其 他 Nova 组 件 。 


1) 安装 软件 包 。 





root@openstack:~# apt-get install nova-api nova-cert nova-conductor nova-consoleauth 
nova-novncproxy nova-scheduler python-novaclient - y 





2) 修改 配置 文件 。 


修改 /etc/nova/nova.conf 文 件 内 容 如 下 : 





root@openstack:~# vim /etc/nova/nova.conf: 


[DEFAULT] 
rpc backend = rabbit 
rabbit host = 192.168.11.128 


rabbit password = kvmpractice 

my ip = 192.168.11.128 

vncserver listen = 0.0.0.0 

vncserver proxyclient address = 192.168.11.128 

auth strategy = keystone 

#networking 

network api class = nova.network.neutronv2.api.API 
neutron url = http://192.168.11.128:9696 

neutron auth strategy - keystone 

neutron admin tenant name = service 

neutron admin username = neutron 

neutron admin password -kvmpractice 

neutron admin auth url = http://192.168.11.128:35357/v2.0 
linuxnet interface ' driver = nova.network.linux net.LinuxOVSInterfaceDriver 
firewall driver = nova.virt.firewall.NoopFirewallDriver 
security group api 7 neutron 

fneutron metadata agent 

service neutron metadata proxy - true 

neutron metadata proxy shared secret = kvmpractice 
[database] 

connection = mysql://nova:kvmpractice8192.168.11.128/nova 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 

auth host = 192.168.11.128 

auth port = 35357 

auth protocol - http 

admin tenant name - service 

admin user = nova 

admin password = kvmpractice 





其 中 Neutron 相 关 的 配置 项 要 与 后 面 要 安装 的 Neutron 的 配置 保持 一 致 。 

















Ww 


创建 Nova 数 据 库 ，nova 用 户 的 密码 与 配置 文件 中 保持 一 致 。 

















root@openstack:~# mysql -u root -p 
mysql» CREATE DATABASE nova; 


mysql» GRANT ALL PRIVILEGES ON nova.* TO 'nova'8'192.168.11.128' \ 


IDENTIFIED BY 'kvmpractice'; 
mysql» GRANT ALL PRIVILEGES ON nova.* TO 'nova'G'$' \ 
IDENTIFIED BY 'kvmpractice'; 





4) 初始 化 数据 库 : 





root@openstack:~# nova-manage db sync 





5) 在 Keystone 中 创建 Nova 的 user、service 和 endpoint。 














@@ 创 建 nova 用 户 ， 并 且 在 service 这 个 tenant 中 赋予 nova 用 户 admin 角 色 。 











root@openstack:~# keystone user-create --name-nova --pass-kvmpractice 





4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Property | Value | 
4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| email | l 
| enabled | True | 
| id | 42ab62a0c92a4e0d99a6e3a886b77e5a | 
| name | nova | 
| username | nova | 
4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 





root(openstack:-4 keystone user-role-add --user-nova --tenant-service --role-admin 





@ 创 建 service 和 APl endpoint, 








ze 
| description | OpenStack Compute | 
| enabled l True | 
| id | 3eb163185c3443249bf25b65a927cb24 | 
Į name | nova | 
| type | compute l 
4------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


root@openstack:~# keystone endpoint-create V 


--service-id-$ (keystone service-list | awk '/ compute / (print $2}') 
--publicurl-http://192.168.11.128:8774/v2/$N (tenant id\) s \ 
-—-internalurl-http://192.168.11.128:8774/v2/$N (tenant _id\) s \ 
T74/v2/$N (tenant idV) s 


—-adminurl-http://192.168.11.12 





4------------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Property | Value 

4------------- ŮŮ + 
| adminurl | http://192.168.11.128:8774/v2/$ (tenant id) s 

| id l 5£80d03ea49b409c89270633a58eel3d 7 

| internalurl | http://192.168.11.128:8774/v2/$ (tenant id) s 

| publicurl | http://192.168.11.128:8774/v2/$ (tenant id) s 

| region | regionOne 

| service id | 3eb163185c3443249bf25b65a92771cb24 
4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 





6) 重启 服务 。 








root@openstack:~# cd /etc/init.d;for i in “ls nova-*^;do service $i resetart;done 





7) 验证 服务 是 否 正常 。 





root@openstack:~# cd /etc/init.d;for i in "ls nova-*';do service $i status;done 


root@openstack:~# nova image-list 


十- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4-------- 二 -一 一 一 +-------- 十 


| ID | Name | Status | Server | 


十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4-------- 4-------- 4-------- 十 
| £32326d6-a8af-4de6-82e3-2a978b1a7627 | cirros | ACTIVE | 





nova image-list 看 到 的 正 是 之 前 添加 的 镜像 。 


7. 安 装 网 络 组 件 Neutron 


Neutron 负 责 整个 OpenStack 的 网 络 部 分 ， 在 Grizzly 版 本 及 之 前 的 版 本 中 曾 叫 作 Quantum， 因 


1) 安装 软件 包 。 





此 在 老 的 文档 里 见 到 Quantum 也 是 指 OpenStack 的 网 络 组 件 。 





root@openstack:~# apt-get install neutron-server neutron-plugin-ml2 neutron- 
plugin-openvswitch-agent openvswitch-datapath-dkms neutron-l3-agent neutron- 


dhcp-agent - y 





2) 修改 Linux 内 核 参数 。 





root@openstack:~# vim /etc/sysctl.conf 
net.ipv4.ip forward-l 
net.ipv4.conf.all.rp filter-0 
net.ipv4.conf.default.rp filter-0 

Me zi 

root@openstack:~# sysctl -p 





3) 修改 配置 文件 。 


Neutron 组 件 众多 ， 因 此 需要 修改 的 配置 文件 也 很 多 。 





@@ 修 改 /etc/neutronyneutron.conf 文 件 内 容 如 下 : 





[DEFAULT] 

auth strategy - keystone 

rpc backend = neutron.openstack.common.rpc.impl kombu 
rabbit host = 192.168.11.128 

rabbit password = kvmpractice 

notify nova on port status changes - True 

notify nova on port data changes = True 

nova url = http://192.168.11.128:8774/v2 

nova admin username = nova 

nova admin tenant id = 0a76675d8f714fcd9336fb5ff5133599 


nova admin password -kvmpractice 

nova admin auth url = http://192.168.11.128:35357/v2.0 
core plugin = mI2 

service plugins = router 

allow overlapping ips - True 

[database] 

connection = mysql://neutron:kvmpractice8192.168.11.128/neutron 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 

auth host = 192.168.11.128 

auth protocol - http 

auth port = 35357 

admin tenant name - service 

admin user = neutron 

admin password = kvmpractice 





@ 修 改 /etcneutron/pluginsyml2/ml2_conf.ini 文 件 内 容 如 下 : 





[m12] 

type_drivers = vlan 
tenant_network_types = vlan 
mechanism drivers = openvswitch 

[ml2 type vlan] 

network vlan ranges = physnetl:2:1024 
[securitygroup] 

firewall driver = neutron.agent.linux.iptables firewall.OVSHybridIptablesFirewallDriver 
enable security group - True 

[ovs] 

tenant network type - vlan 

bridge mappings = physnetl:br-ethl 





@ 修 改 /etc/neutron/l3_agent.ini 文 件 内 容 如 下 : 





[DEFAULT] 
interface driver = neutron.agent.linux.interface.OVSInterfaceDriver 
use namespaces = True 





图 修改 /etc/neutron/dhcp_agent.ini 文 件 内 容 如 下 : 





[DEFAULT] 
interface driver = neutron.agent.linux.interface.OVSInterfaceDriver 
use namespaces = True 





回 修改 /etc/neutron/metadata_agent.ini 文 件 内 容 如 下 : 





[DEFAULT] 

auth url = http://192.168.11.128:5000/v2.0 
auth region = regionOne 

admin tenant name = service 

admin user - neutron 

admin password = kvmpractice 

nova metadata ip = 192.168.11.128 
metadata proxy shared secret = kvmpractice 





4) 配置 Open vSwitch, 





选择 Open vSwitch 作 为 Neutron 的 plugin 来 实现 底层 的 网 络 虚拟 化 ，Open vSwitch 需 要 进行 配置 (Open vSwitch 安 装 使 











在 第 4 章 有 详细 介绍 ) 。 





root@openstack:~# service openvswitch-switch restart 
root@openstack:~# ovs-vsctl add-br br-int 
root@openstack:~# ovs-vsctl add-br br-ethi 
root@openstack:~# ovs-vsctl add-port br-ethl ethl 
root@openstack:~# ovs-vsctl add-br br-ex 





5) 创建 数据 库 。 





root@openstack:~# mysql -u root -p 

mysql> CREATE DATABASE neutron; 

mysql> GRANT ALL PRIVILEGES ON neutron.* TO 'neutron'@'192.168.11.128' IDENTIFIED 

BY 'kvmpractice'; 

mysql» GRANT ALL PRIVILEGES ON neutron.* TO 'neutron'@'%' IDENTIFIED BY 'kvmpractice'; 





6) 在 Keystone 中 创建 neutron 的 user、service 和 endpoint。 























@@ 创 建 neutron 用 户 ， 并 且 在 service 这 个 tenant 中 赋予 neutron 用 户 admin 角 色 。 




















root@openstack:~# keystone user-create --name neutron --pass kvmpractice 








十 
| | 
+ + 
| l | 
| l True l 
| | 50a88£4934e264bc8ba5a25be94£338£3 | 
| nae | neutron | 
| username | neutron | 
二 -一 -一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 





root8openstack:^£ keystone user-role-add --user neutron --tenant service --role admin 





@ 创 建 service 和 APl endpoint, 





root@openstack:~# keystone service-create --name neutron --type network 
--description "OpenStack Networking" 


4------------- 4o--------e---ecoo-o oce eee eoe ---- + 
| Property | Value | 
二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 + 
| description | OpenStack Networking I 
| enabled | True | 
| id | 1521d75b03c346cdaf8bf621f4b8e092 | 
| | neutron l 
| Į network | 





root@openstack:~# keystone endpoint-create V 

--service-id $ (keystone service-list | awk '/ network / (print $2]') \ 
--publicurl http://192.168.11.128:9696 \ 

--adminurl http://192.168.11.128:9696 \ 

--internalurl http://192.168.11.128:9696 

4------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

| Property | Value | 

n 








| adminurl | http://192.168.11.128:9696 | 
| id | 598218212bb24fc5bd8ecl46ba798215 | 
| internalurl | http://192.168.11.128:9696 | 
| publicurl | http://192.168.11.128:9696 | 
| region | regionOne | 
| service id | 1521d75b03c346cdaf8bf621f4b8e092 | 
4------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 





7) 重启 服务 。 








root@openstack:~# cd /etc/init.d;for i in ^ls nova-*';do service $i resetart;done 





8) 验证 服务 是 否 正常 。 





rootGopenstack:-4 cd /etc/init.d;for i in "ls nova-*^;do service $i status;done 
root@openstack:~# source openrc 
root@openstack:~# neutron agent-list 





一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 -一 十 一 -一 一 一 -一 -一 一 一 十 一 -一 一 一 -一 十 一 一 一 一 一 一 一 -一 一 一 一 一 一 一 一 十 
e | host | alive | admin state up | 
+- 一 + 一 一 一 











| 17e8a447-4e6e-4ae4-8b13-61112ee15fa3 | Metadata agent | openstack | : | True | 

| 7d9b1036-dbd3-44e2-8625-c31191090d71 | Open vSwitch agent | openstack | :-) | True | 
| d0ca32a9-4£07-4c7a-90a2-8bc7aabbdbd3 | DHCP agent | openstack | :-) | True | 

| d7eae98£-07fe-441c-86c2-1d0b6d7f52ca | L3 agent | openstack | ) | True | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 二 一 一 一 一 一 -一 一 一 一 一 十 一 一 一 一 一 ~ 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 








命令 输出 显示 Neutron 的 服务 状态 都 正常 。 


8. 安 装 dashboard 一 一 Horizon 








Horizon 是 OpenStack 的 dashboard 组 件 ， 使 用 户 可 以 通过 网 页 更 加 直观 、 方 便 地 管理 OpenStack。 








1) 安装 软件 包 。 





root@openstack:~# apt-get install apache2 memcached libapache2-mod-wsgi 
openstack-dashboard - y 











2) SDERARESFHUbuntuBSzEgi, AERE. 














root8openstack:^4 apt-get remove --purge openstack-dashboard-ubuntu-theme -y 





3) 验证 Horizon 是 否 能 正常 工作 。 








在 浏览 器 中 输入 http://192.168.11.128/horizon， 使 用 admin 用 户 登录 dashboard， 这 个 用 户 正 是 前 面 在 Keystone 中 创建 的 管理 员 用 户 。 




















9. 安 装 块 存储 服务 Cinder 


Cinder 为 OpenStack 提 供 块 存储 服务 ， 由 3 个 组 件 组 成 : cinder-api、cinder-scheduler、cinder-volume。 其 中 ，cinder-api 负 责 处 理 API 请 求 ; cinder-volume 负 责 实际 操作 后 端 存 储 ; 而 cinder- 
scheduler 则 是 起 调度 作用 ， 决 定 在 哪个 存储 节点 上 创建 volume。 如 果 有 专门 的 存储 节点 ， 可 以 把 cinder-volume 部 署 在 存储 节点 ， 把 cinder-api、cinder-scheduler 部 署 在 控制 节点 。 由 于 我 们 的 架构 中 
没有 存储 节点 ， 因 此 3 个 组 件 都 部 署 在 控制 节点 。 

















1) 安装 软件 包 。 





rootGopenstack:-4 apt-get install cinder-api cinder-scheduler cinder-volume -y 





2) 修改 配置 文件 。 





root@openstack:~# vim /etc/cinder/cinder.conf 


[DEFAULT] 
rpc backend - rabbit 
rabbit host -192.168.11.128 





rabbit port = 5672 

rabbit userid = guest 

rabbit password = kvmpractice 
[database] 

connection = mysql://cinder:kvmpractice0192.168.11.128/cinder 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 
auth host = 192.168.11.128 

auth port = 35357 

auth protocol - http 

admin tenant name = service 

admin user = cinder 

admin password -kvmpractice 





3) 创建 数据 库 。 





root@openstack:~# mysql -u root -p 

mysql» CREATE DATABASE cinder; 

mysql» GRANT ALL PRIVILEGES ON cinder.* TO 'cinder'G'localhost' V 
IDENTIFIED BY 'kvmpractice'; 

mysql» GRANT ALL PRIVILEGES ON cinder.* TO 'cinder'G'£' \ 
IDENTIFIED BY 'kvmpractice'; 





4) 初始 化 数据 库 。 





root8openstack:^4 cinder-manage db sync 





5) 在 Keystone 中 创建 cinder 的 user、service 和 endpoint。 











@@ 创 建 cinder 用 户 ， 并 且 在 service 这 个 tenant 中 赋予 cinder 用 户 admin 角 色 。 

















root@openstack:~# keystone user-create --name-cinder --pass-kvmpractice 
4---------- 4-- 





| email | 


| enabled | True | 


| id | 78c5da5c5c164fc58250balla0e477de | 
| name | cinder | 
| username | cinder f 
4---------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 





root8openstack:^£ keystone user-role-add --user-cinder --tenant-service --role- 
admin 





@ 创 建 service 和 endpoint。 





root@openstack:~# keystone service-create --name=cinder --type-volume --descrip- 
tion-"OpenStack Block Storage" 


十 一 一 一 一 一 一 -一 一 一 一 寺 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 + 
| Property | Value | 
十 = 一 一 一 -一 -一 -一 -一 uc 十 
| description | OpenStack Block Storage | 
| enabled | True l 
| id | 0b087e898f1445e5b3b5e69280f9aa8a | 
| name ji cinder | 
| type | volume | 





root@openstack:~# keystone endpoint-create V 

--service-id-$ (keystone service-list | awk '/ volume / (print $2}') WV 
--publicurl-http://192.168.11.128:8776/v1/$N (tenant id\) s \ 
—-internalurl-http://192.168.11.128:8776/v1/$N (tenant idX) s N 
--adminurl-http://192.168.11.128:8776/v1/2$N (tenant idV) s 


Property Value | 





adminurl http://192.168.11.128:8776/v1/$ (tenant id) s | 
id 5cec6f26a5a84080a43800ad5£99f6d0 I 

internalurl | http://192.168.11.128:8776/v1/$ (tenant id) s | 

publicurl http://192.168.11.128:8776/v1/$ (tenant id) s | 
region regionOne | 
service id 05087e898£1445e5b3b5e69280f£9aa8a | 











root@openstack:~# keystone service-create --name-cinderv2 
--type-volumev2 --description-"OpenStack Block Storage v2" 
4------------- 证 + 
Property Value | 
+ ccc CC "C 十 
description OpenStack Block Storage v2 | 
enabled True I 
id b40886709e174ff481a62ae6217fb623 | 
cinderv2 | 
volumev2 l 





root@openstack:~# keystone endpoint-create V 

--service-id-$ (keystone service-list | awk '/ volumev2 / {print $2}') \ 
--publicurl=http://192.168.11.128:8776/v2/%\ (tenant_id\) s \ 
--internalurl=http://192.168.11.128:8776/v2/%\ (tenant id\) s \ 








| adminurl | http://192.168.11.128:8776/v2/$ (tenant id) s | 
| id f 24051382da9045a4b957af65585ac67a l 
| internalurl | http://192.168.11.128:8776/v2/$ (tenant id) s | 
| publicurl | http://192.168.11.128:8776/v2/$ (tenant id) s | 
| region l regionOne | 
| service id | 140886709e174ff481a62ae6217f5623 I 
4------------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 











6) 创建 Cinder 用 的 Volume Group。 











root@openstack:~# pvcreate /dev/sdb 
# 其 中 sdb 是 给 cinder 用 的 数据 盘 


root@openstack:~# vgcreate cinder-volumes /dev/sdb 














在 实际 环境 中 ， 很 多 情况 下 可 能 用 户 根本 不 会 用 到 Cinder， 启 动 Cinder 服 务 只 是 为 了 不 让 dashboard 报 错 ， 这 时 候 可 以 用 以 下 解决 方案 。 




















root@openstack:~# cd /mnt 

root8openstack:-4 dd if=/dev/zero of-cinder-volumes bs-1 count-0 seek-2G 
rootGopenstack:-4 losetup /dev/loop2 /mnt/cinder-volumes 
root(openstack:-4 vim /etc/init.d/cinder-setup-backing-file 

losetup /dev/loop2 /mnt/cinder-volumes 

exit 0 

root@openstack:~# chmod 755 /etc/init.d/cinder-setup-backing-file 
root@openstack:~# ln -s /etc/init.d/cinder-setup-backing-file /etc/rc2.d/Si10cinder- 
setup-backing-file 

rootüopenstack:-4 pvcreate /dev/loop2 

root@openstack:~# vgcreate cinder-volumes /dev/loop2 





7) 








ERZ. 





root@openstack:~# service cinder-scheduler restart 
rootGopenstack:-4 service cinder-api restart 
root@openstack:~# service cinder-volume restart 





8) 验证 服务 是 否 正常 。 





root@openstack:~# service cinder-scheduler status 








root8openstack service cinder-api status 

root8openstack service cinder-volume status 

root8openstack cinder service-list 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 ~ 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 ~ 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 -一 一 一 一 一 -一 一 十 

| Binary | Host Zone | Status | State | Updated at | 

十 = 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 -一 一 一 -一 -一 一 一 一 十 = 一 一 一 一 一 十 = 一 -一 -一 一 一 -一 一 一 十 一 一 一 一 一 -一 十 一 一 一 一 一 一 一 一 一 一 -一 -一 一 + 

| cinder-scheduler | openstack | nova | enabled | up | 2015-01-08T08:28:05.000000 | 
| cinder-volume | openstack | nova | enabled | up | 2015-01-08T08:28:13.000000 | 
4--------------- 4--------------- 4------- 4------------ 十 一 -一 一 一 -一 十 一 一 一 一 一 -一 一 -一 -一 -一 一 十 

至 此 控制 节点 安装 完成 。 


111.3 ”计算 节点 的 安装 


在 计算 节点 安装 之 前 ， 需 要 进行 服务 器 环境 的 准备 和 设置 。 
服务 器 环境 准备 : 
- 操作 系统 为 Ubuntu 12.04 LTS。 


- 双 网 卡 eth0、ethl ， 以 笔者 的 环境 为 例 ， 网 卡 配 置 文件 如 下 : 





auto lo 

iface lo inet loopback 
#the admin interface 
auto eth0 

#eth0 IP 配置 信息 

iface eth0 inet static 
address 192.168.11.129 
netmask 255.255.255.0 
gateway 192.168.11.1 
#ethl 实际 不 配置 IP 
auto ethl 

iface ethl inet static 
address 0.0.0.0 





: 磁盘 30GB 以 上 。 
首先 也 需要 设置 apt 源 ， 这 一 步骤 请 参考 控制 节点 安装 部 分 ， 不 再 歼 述 。 
1. 安 装 Neutron 和 OpenvSwitch 


1) 修改 内 核 参数 ， 开 启 反 向 过 滤 。 





root@openstack:~# vim /etc/sysctl.conf 
net.ipv4.conf.all.rp filter-0 
net.ipv4.conf.default.rp filter-0 
root8openstack:^4 sysctl -p 





2) 安装 Neutron 软 件 包 。 





root@openstack:~# apt-get install neutron-common neutron-plugin-ml2 neutron-plugin- 
openvswitch-agent openvswitch-datapath-dkms 





3) 修改 Neutron 配 置 文件 。 


@ 编 辑 /etc/neutronyneutron.conf 文 件 内 容 如 下 : 





root@openstack:~# vim /etc/neutron/neutron.conf 
[DEFAULT] 

auth strategy - keystone 

rpc backend = neutron.openstack.common.rpc.impl kombu 
rabbit host = 192.168.11.128 ni 
rabbit password = kvmpractice 

core plugin = ml2 

service plugins = router 

allow overlapping ips - True 

[database] B 

connection = mysql://neutron:kvmpractice8192.168.11.128/neutron 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 

auth host = 192.168.11.128 

auth protocol - http 

auth port = 35357 

admin tenant name - service 

admin user = neutron 

admin password = kvmpractice 





@ 编 辑 /etc/neutron/plugins/ml2/ml2_conf.ini 文 件 内 容 如 下 : 





root@openstack:~# vim /etc/neutron/plugins/ml2/ml2 conf.ini 
[m12] 

type drivers - vlan 

tenant network types - vlan 

mechanism drivers = openvswitch 

[ml2 type vlan] 

network vlan ranges = physnetl:2:1024 

[securitygroup] 

firewall driver = neutron.agent.linux.iptables firewall.OVSHybridIptablesFirewall- 
Driver 

enable security group - True 

[ovs] 

tenant network type = vlan 

bridge mappings = physnetl:br-ethl 





4) 配置 Open vSwitch， 增 加 网 桥 。 





root8openstack:^4 service openvswitch-switch restart 
root@openstack:~# ovs-vsctl add-br br-int 
rootGopenstack:-4 ovs-vsctl add-br br-ethl 
root@openstack:~# ovs-vsctl add-port br-ethl ethl 





2.32 nova compute 组 件 


1) 安装 nova 软 件 包 。 





root@openstack:~# apt-get install nova-compute-kvm qemu-kvm 





2) 修改 配置 文件 。 


多 数 配置 与 控制 节点 相同 ， 主 要 修改 的 是 一 些 涉及 本 机 IP 地 址 的 配置 项 。 编 辑 /etc/nova/nova.conf 文 件 内 容 如 下 : 








rootGopenstack:-4 vim /etc/nova/nova.conf 
[DEFAULT] 

rpc backend - rabbit 

rabbit host = 192.168.11.128 

rabbit password = kvmpractice 

my ip = 192.168.11.129 

vncserver listen = 0.0.0.0 

vncserver proxyclient address = 192.168.11.129 
auth strategy - keystone 

glance host -192.168.11.128 

inetworking 

network api class - nova.network.neutronv2.api.API 
neutron url = http://192.168.11.128:9696 
neutron auth strategy - keystone 

neutron admin tenant name = service 
neutron admin username = neutron 


neutron admin password -kvmpractice 

neutron admin auth url - http://192.168.11.128:35357/v2.0 
linuxnet interface driver = nova.network.linux net.LinuxOVSInterfaceDriver 
firewall driver = nova.virt.firewall.NoopFirewallDriver 
security group api = neutron 

fneutron metadata agent 

service neutron metadata proxy - true 

neutron metadata proxy shared secret - kvmpractice 
[database] 

connection = mysql://nova:kvmpractice0192.168.11.128/nova 
[keystone authtoken] 

auth uri = http://192.168.11.128:5000 

auth host = 192.168.11.128 

auth port = 35357 

auth protocol - http 

admin tenant name = service 

admin user - nova 

admin password = kvmpractice 

[libvirt] 

virt type = kvm 





3) 





由 


启 libvirt 服 务 和 nova-compute 服 务 。 





rootGopenstack:-4 service libvirt-bin restart 
rootGopenstack:-4 service nova-compute restart 





至 此 计算 节点 安装 完成 。 


11.2. OpenStack 实 用 技巧 


11.2.1 RabbitMQ Cluster 搭 建 























RabbitMQ 是 Openstack 各 组 件 之 间 通 信 的 枢纽 ， 因 此 它 的 可 用 性 非常 重要 。RabbitM Q Cluster 是 一 个 很 好 的 高 可 用 解决 方案 。 














一 个 RabbitMQ Cluster 包 括 多 个 运行 RabbitMQ 的 节点 ， 这 些 节点 之 间 共 享 users、virtual hosts、queues、exchanges 等 。 接 下 来 将 介绍 如 何 搭建 一 个 RabbitMQ Cluster, 


1. 统 一 每 个 节点 上 的 Erlang cookie 








RabbitMQ 是 由 Erlang 语 言 写成 的 ，Erlang 节 点 只 能 同 与 它 拥有 相同 cookie 的 其 他 节点 通信 ， 因 此 ， 搭 建 cluster 前 要 保证 各 个 节点 上 的 Erlang cookie 相 同 。 








cookie 的 位 置 是 /varliby/rabbitmqy/.erlang.cookie。cookie 是 一 个 任意 长 的 英文 字母 串 : 





root8rabbit01:-4 cat /var/lib/rabbitmqg/.erlang.cookie 
RZBHENFOEQAXCNAYSJCL 























在 统一 cookie 时 最 好 是 复制 文件 ， 不 要 复制 字符 串 ， 而 且 复 制 完 后 要 保证 文件 权限 正确 。 








root@rabbit01:~# scp /var/lib/rabbitmg/.erlang.cookie root@rabbit02:/var/lib/ 
rabbitmg/.erlang.cookie 





2. 配 置 /etc/hosts 








创建 RabbitMQ cluster 需 要 各 节点 之 间 能 互相 解析 主机 名 ， 因 此 ， 要 在 /etc/hosts 中 加 入 配置 ， 代 码 如 下 : 

















root@rabbit01:~# cat /etc/hosts 
127.0.0.1 localhost 
192.168.11.128 rabbit01l 
192.168.11.129 rabbit02 
root@rabbit02:~# cat /etc/hosts 
127.0.0.1 localhost 
192.168.11.128 rabbit0l 
192.168.11.129 rabbit02 

3 .把 节点 加 入 到 集群 中 


RabbitMQ 在 安装 完 后 ， 默 认 属于 一 个 cluster， 不 过 这 个 cluster 内 只 有 它 本 身 这 一 个 节点 。 








root@rabbit01 ~ # rabbitmqctl cluster status 

Cluster status of node rabbiterabbit01 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
[(nodes, [(disc, [rabbit@rabbit01]}]}, 

[running nodes, [rabbit@rabbit01]}, 

(partitions, [])]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 








下 面 要 做 的 就 是 把 其 他 节点 加 入 到 这 个 cluster， 加 入 的 步骤 如 下 : 





rootGrabbit02 ~ # rabbitmqctl stop app 

Stopping node rabbit8rabbit02 http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 

root@rabbit02 ~ # rabbitmqctl join cluster rabbit@rabbit01 

Clustering node rabbit&rabbit02 with [rabbit@rabbit01] http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 
root8rabbit02 ~ # rabbitmqctl start app 

Starting node rabbitGrabbit02 http: /7www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/ . . .done. 





然后 现在 查看 一 下 cluster status: 





root@rabbit01:~# rabbitmqctl cluster status 
Cluster status of node 'rabbitGrabbit0l' http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/0EBPS/Text/... 
[(nodes, [(disc, ['rabbitGrabbitOl', 'rabbitGrabbit02']]]], 
(running nodes, ['rabbitGrabbit02', 'rabbit8rabbit01']], 
(cluster name, <<"rabbit@rabbit01">>}, 
(partitions, [])] 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 





至 此 ，cluster 已 经 搭建 完成 。 


4 配置 queue mirror 











cluster 搭 建 完 后 还 没有 实现 真正 的 高 可 用 ， 默 认 情况 下 ， 一 个 queue 只 分 布 在 一 个 节点 上 ， 如 果 这 个 节点 出 现 故障 ，queue 中 的 message 就 会 丢失 。 
queue 镜 像 到 多 个 节点 。 方 法 是 定义 一 个 policy， 然 后 RabbitM Q 会 根据 这 个 policy 产 生 queue 的 镜像 。 


















































此 ， 要 实现 高 可 用 ， 还 要 配置 queue mirror， 把 





root@rabbit01:~# rabbitmqctl set policy ha-all ^ (!amqN\.) .* ("ha-mode":"all") 











这 个 命令 定义 了 一 个 policy， 把 所 有 名 称 符合 ^ (! amqW.) .* 正 则 表达 式 的 queue 镜 像 到 cluster 内 所 有 节点 ， 这 个 正则 表达 式 的 作用 是 只 匹配 Openstack 组 件 产生 的 queue， 忽 略 RabbitMQ 默 认 产 生 




















的 queue， 因 为 这 些 queue 没 有 做 高 可 用 的 必要 。 

















root8rabbit01:-4  rabbitmqctl list policies 

Listing policies http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
a HA all ^ (!amqW.) .* ("ha-mode":"all") 0 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...done. 





11.2.2 利用 Haproxy 和 Keepalived 实 现 控制 节点 高 可 用 


Haproxy 是 一 款 开源 的 负载 均衡 软件 ， 支 持 基 于 TCP 和 HTTP 实 现 负载 均衡 。 而 Keep-alived 利 用 VRRP 协 议 ， 可 以 检测 节点 状态 ， 实 现 高 可 用 。 本 节 介 绍 利用 Haproxy 和 Keepalived 实 现 OpenStack 控 











制 节点 的 负载 均衡 及 高 可 用 。 





假设 现在 有 两 个 控制 节点 : ctrl01、ctrl02。 每 个 节点 上 应 该 运行 的 服务 如 表 11-1 所 示 。 


表 11-1 每 个 节点 上 应 该 运行 的 服务 


nova-api 

neutron-server 
nova-cert 

neutron-dhcp-agent 


ctrl01 nova-conductor glance-api 


keystone | neutron-l3-agent 


192.168.11.128 nova-scheduler glance-registry 


neutron-metadata-agent 
nova-consoleauth . 

neutron-openvswitch-agent 
nova-novncproxy 


nova-api 


ctr102 nova-cert 
192.168.11.129 nova-conductor 


nova-scheduler 


keystone | neutron-server 








cinder-api 
cinder-scheduler 


cinder-volume 


cinder-api 














从 表 11-1 中 可 以 看 出 ， 灰 色 的 服务 如 DHCP 只 能 运行 在 一 个 节点 上 ， 这 个 节点 称 为 主 控制 节点 ， 对 于 这 样 的 服务 难以 实现 高 可 用 。 负 载 均衡 和 高 可 























只 针对 其 他 黑色 字体 的 服务 。 











ha01 和 ha02 是 要 安装 Haproxy 的 两 个 节点 ，ha01 的 IP 地 址 为 192.168.11.101，ha02 的 IP 地 址 为 192.168.11.102。Keepalived 使 用 的 虚拟 IP 地 址 (V 











下 面 在 两 个 节点 安装 软件 包 。 


IP) 为 192.168.11.100。 





root@ha01:~# apt-get install haproxy keepalived -y 





然后 配置 Haproxy， 配 置 文件 如 下 : 


root@ha01:~# vim /etc/haproxy/haproxy.cfg 
global 

chroot /var/lib/haproxy 

daemon 

group haproxy 


log  127.0.0.1 locali info 

pidfile /var/run/haproxy.pid 

stats socket /var/lib/haproxy/socket level admin 

user haproxy 
defaults 

log global 

maxconn 8000 

option redispatch 

retries 3 

timeout http-request 20s 

timeout queue 1m 

timeout connect 10s 

timeout client 1m 

timeout server lm 

timeout check 10s 

timeout tunnel 3600s # TCP timeout, used by novncproxy's websocket 
frontend unsecured vdesktop-stage.cnl.global.ctrip.com:80 

mode http 
redirect scheme https if !{ ssl_fc } 
listen dashboard cluster 

bind 192.168.11.100:443 ssl crt /etc/haproxy/openstack.pem 

mode http 

regadd X-Forwarded-Proto:V https 

balance source 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:80 check inter 2000 rise 2 fall 3 

server ctrl02 192.168.11.129:80 check inter 2000 rise 2 fall 3 
listen glance api cluster 

bind 192.168.11.100:9292 

mode http 

balance source 

option tcpka 

option httpchk 

option httplog 

# should only have one server for glance, as we are using file sytem as image store 

server ctrl01 192.168.11.128:9292 check inter 2000 rise 2 fall 3 
listen glance registry cluster 

bind 192.168.11.100:9191 

balance source 

option tcpka 


option tcplog 


# should only have one server for glance, as we are using file sytem as image store 


server ctr101 192.168.11.128:9191 check inter 2000 rise 2 fall 3 
listen keystone admin cluster 

bind 192.168.11.100:35357 

mode http 

balance roundrobin 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:35357 check inter 2000 rise 2 fall 3 

server ctrl02 192.168.11.129:35357 check inter 2000 rise 2 fall 3 
listen keystone public internal cluster 

bind 192.168.11.100:5000 

bind 192.168.11.100:8443 ssl crt /etc/haproxy/openstack.pem 

mode http 

regadd X-Forwarded-Proto:N https 

balance roundrobin 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:5000 check inter 2000 rise 2 fall 3 

server ctrl02 192.168.11.129:5000 check inter 2000 rise 2 fall 3 
listen nova compute api cluster 

bind 192.168.11.100:8774 

mode http 

balance roundrobin 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:8774 check inter 2000 rise 2 fall 

server ctrl02 192.168.11.129:8774 check inter 2000 rise 2 fall 
listen nova metadata api cluster 

bind 192.168.11.100:8775 

balance roundrobin 

option tcpka 

option tcplog 

server ctrl01 192.168.11.128:8775 check inter 2000 rise 2 fall 

server ctrl02 192.168.11.129:8775 check inter 2000 rise 2 fall 
listen cinder api cluster 

bind 192.168.11.100:8776 

mode http 

balance source 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:8776 check inter 2000 rise 2 fall 3 

server ctrl02 192.168.11.129:8776 check inter 2000 rise 2 fall 3 
listen ceilometer api cluster 

bind 192.168.11.100:8777 

mode http 

balance source 

option tcpka 

option httpchk 

option httplog 

server ctrl01 192.168.11.128:8774 check inter 2000 rise 2 fall 

server ctrl02 192.168.11.129:8774 check inter 2000 rise 2 fall 
listen neutron api cluster 

bind 192.168.11.100:9696 

mode http 

balance source 

option tcpka 

option httplog 

server ctrl01 192.168.11.128:9696 check inter 2000 rise 2 fall 

server ctrl02 192.168.11.129:9696 check inter 2000 rise 2 fall 
frontend novncproxy 

bind 192.168.11.100:6080 ssl crt /etc/haproxy/vdi pd.pem 

acl is websocket hdr (Upgrade) -i WebSocket 

use backend websocket-backend if is websocket 

default backend novncproxy-backend 
backend websocket-backend 

balance roundrobin 

option http-server-close 

option forceclose 

no option httpclose 

option tcplog 

server ctrl01 192.168.11.128:6080 check inter 2000 rise 2 fall 3 
backend novncproxy-backend 

mode http 

balance roundrobin 

option httplog 

server ctrl01 192.168.11.128:6080 check inter 2000 rise 2 fall 3 


ww 


ww 


ww 


ww 























ha01 和 ha02 上 的 配置 文件 要 保持 一 致 。Haproxy 使 用 rsyslog 记 录 日 志 ， 另 外 还 需要 额外 的 配 : 














让 Haproxy 打 印 日 志 到 特定 的 文件 ， 代 码 如 下 : 





root@ha01:~# vim /etc/rsyslog.d/49-haproxy.conf 

# Create an additional socket in haproxy's chroot in order to allow logging via 
# /dev/log to chroot'ed HAProxy processes 

$AddUnixListenSocket /var/lib/haproxy/dev/log 

# Send HAProxy messages to a dedicated logfile 

if $programname startswith 'haproxy' then /var/log/haproxy.log 

g~ 








然后 重启 rsyslog 服 务 ， 代 码 如 下 : 





root8ha01:-4 service rsyslog restart 











这 样 ，Haproxy 就 会 把 日 志 打印 到 /varlog/haproxy.log 中 。 








接 下 来 配置 Keepalived， 两 个 节点 上 配置 文件 有 所 不 同 ， 请 注意 : 





#ha01 作 为 master 节 点 
root@ha01:~# cat /etc/keepalived/keepalived.conf 
vrrp script chk haproxy { 


Script "sh /etc/keepalived/check.sh" * verify the pid existance 
interval 2 # check every 2 seconds 
weight 2 # add 2 points of prio if OK 
} 
vrrp instance VI 1 ( 
interface eth0 # interface to monitor 
state MASTER 
virtual router id 51 # Assign one ID for this route 
priority 100 # 100 on master, 99 on backup 
virtual ipaddress { 
192.168.11.100 # the virtual IP 


F 

track_script { 
chk_haproxy 

} 


} 

#ha02 作 为 backup 节 点 

root@ha02:~# cat /etc/keepalived/keepalived.conf 
vrrp script chk haproxy { 


Script "sh /etc/keepalived/check.sh" * verify the pid existance 
interval 2 # check every 2 seconds 
weight 2 # add 2 points of prio if OK 


} 
vrrp_instance VI_1 { 


interface eth0 # interface to monitor 
state BACKUP 


virtual router id 51 # Assign one ID for this route 
priority 99 # 100 on master, 99 on backup 
virtual ipaddress { 

192.168.11.100 # the virtual IP 


} 

track script { 
chk haproxy 

} 





配置 文件 中 提 到 的 /etc/keepalived/check.sh 脚 本 是 用 来 检查 haproxy 进 程 状态 的 ， 代 码 如 下 : 





root@ha01:~# cat /etc/keepalived/check.sh 
#! /bin/bash 
if [ ""pgrep -f "/usr/sbin/haproxy -f /etc/haproxy/haproxy.cfg -D -p /var/run/ 
haproxy.pid"^" - "" ];then 
service haproxy start 
sleep 3 
if [ "'pgrep 
haproxy.pid"^" = 
killall keepalived 
fi 





/usr/sbin/haproxy -f /etc/haproxy/haproxy.cfg -D -p /var/run/ 
" ];then 


fi 

















其 中 ，pgrep 匹 配 的 进程 名 可 以 根据 自己 环境 的 不 同 进行 更 改 ， 这 是 因为 不 同 环境 haproxy 的 进程 名 可 能 不 同 。 























重启 Keepalived 服 务 ， 代 码 如 下 : 








root@ha01:~# service keepalived restart 


如 果 配 置 成 功 ， 会 在 MASTER 节 点 的 网 卡 上 看 到 虚拟 IP， 之 后 访问 OpenStack 的 服务 就 可 以 通过 这 个 虚拟 IP。 








root@ha01:~# ip a s ethO 
2: eth0: «BROADCAST, MULTICAST, UP, LOWER UP» mtu 1500 qdisc noqueue state UNKNOWN 
link/ether 06:07:85:48:0e:76 brd ff:ff:ff:ff:ff:ff 
inet 192.168.11.101/24 brd 192.168.11.255 scope global eth0 
inet 192.168.11.100/32 scope global eth0 
inet6 fe80::407:85ff:fe48:e76/64 scope link 
valid lft forever preferred lft forever 


11.2.3 ” 冷 迁 移 虚 拟 机 的 方法 














在 实际 生产 环境 中 ， 很 多 情况 下 并 没有 使 用 共享 存储 来 存储 虚拟 机 ， 因 此 ， 热 迁移 虚拟 机 变 得 很 困难 。 如 果 这 时 有 虚拟 机 迁移 的 需求 ， 可 以 尝试 冷 迁 移 ， 下 面 将 介绍 冷 迁 移 虚拟 机 的 方法 。 

















首先 ， 查 看 虚拟 机 ， 找 到 要 迁移 虚拟 机 的 id， 并 关 掉 虚 拟 机 ， 代 码 如 下 : 





rootéctrl01:^4 nova list --all-tenants 
rootéctrl01:-4 nova stop INSTANCEID 





在 /var/lib/nova/instances 下 找到 对 应 的 虚拟 机 的 目录 ， 目 录 名 就 是 虚拟 机 的 id， 将 该 目录 复制 到 目的 主机 下 的 /var/lib/nova/instances 中 ， 一 定 要 确保 权限 一 致 ， 复 制 完 检查 目录 的 owner 是 不 是 
nova 用 户 ， 如 果 不 是 ， 将 会 导致 虚拟 机 起 不 来 。 








更 改 nova 数 据 库 中 的 表 instances， 其 中 的 host、node 字 段 为 新 的 目的 计算 节点 名 字 。 








rootéctrl01- # mysql -u root -p 

mysql» use nova; 

mysql» update instances set host-'COMPUTENODENAME', node-'COMPUTENODENAME' where 
uuid-'INSTANCEID'; 


现在 启动 虚拟 机 ， 虚 拟 机 就 会 运行 在 目标 计算 节点 上 了 。 





rootêctrl0l~ # nova start INSTANCEID 





不 要 忘 了 把 旧 节点 上 的 该 虚拟 机 删除 ， 否 则 可 能 引起 冲突 。 





11.3 “本章 小 结 








Openstack 非 常 强大 而 复杂 ， 由 于 篇 幅 限 制 ， 本 章 只 能 简单 介绍 Openstack 的 概念 ， 笔 者 的 生产 环境 的 搭建 方法 和 一 些 经 验 ， 不 能 完全 展开 介绍 。 好 在 Openstack 的 资料 非常 多 ， 如 果 读 者 有 兴趣 进 一 
步 研究 和 使 用 ， 资 料 很 方便 得 到 。 



































下 一 章 为 读者 介绍 OpenNebula，OpenNebula 相 对 搭建 使 用 更 容易 些 ， 更 适用 于 私有 云 管理 。 


第 12 章 ”利用 OpenNebula 管 理 KVM 














第 11 章 介绍 了 如 何 利 用 OpenStack 管 理 KYM， 本 章 将 介绍 另外 一 款 支 持 KVM 的 开源 管理 平台 一 一 OpenNebula， 它 也 是 一 个 功能 非常 强大 的 管理 平台 。 本 章 侧重 从 实践 的 角度 介绍 OpenNebula， 内 
容 主要 包括 OpenNebula 介 绍 及 基本 原理 、OpenNebula 环 境 配 置 、OpenNebula 常 见 故障 处 理 这 三 部 分 。 














12.1 OpenNebula 架 构 




















OpenNebula 是 一 套 功 能 丰富 且 灵 活性 非常 强 的 解决 方案 ， 用 于 构建 和 管理 企业 云 及 数据 中 心虚 拟 化 。OpenNebula 支 持 Xen、KVM、VMware ESX 虚 拟 化 引擎 ， 可 以 一 起 混合 建立 和 管理 私有 云 ， 同 


时 还 提供 了 Deltacloud (410823520094 
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在 OpenNebula 的 架构 中 ， 一 个 经 典 的 OpenNebula 集 群 至 少 需要 一 个 Front-End (前 端 ) 和 一 个 


有 的 Host 连 通 。 图 12-1 所 示 为 最 基本 的 OpenNebula 架 构图 。 





OpenNebula 架 构 介 绍 











图 12-1 所 示 的 架构 图 








是 OpenNebula 最 精简 的 结构 ，OpenNebula 本 身 : 


IDC 机 房 中 可 以 包含 多 个 集群 ，OpenNebula 还 支持 管理 多 个 1DC 机 房 。 


d 


OpenNebula 可 扩展 性 灵活 ， 能 适用 了 


一 系列 操作 ， 


OpenNebula 还 提供 了 混合 云 的 解决 方案 ， 方 便 在 现 有 的 私有 云 的 基础 上 接 入 外 部 的 资源 ， 形 成 强大 的 混合 云 。OpenNebula 也 可 以 


理 ， 对 外 提供 统一 的 Web UI (界面 ) ， 以 及 户 来 说 ， 只 需要 购买 相应 的 权限 ， 便 可 以 使 





Datastores 
(SAN/NAS) 


~ 


3 


9 月 推出 的 一 套 开源 的 API) 适配器 ， 与 Amazon EC2RSAPISEES, 















































E OpenNebula 


front-end 





于 运行 虚拟 机 的 Host (主机 ) 。 在 网 络 方面 ， 











有 非常 强 的 延展 性 和 可 扩展 性 ，OpenNebula front-end 可 以 配置 高 可 


图 12-1 OpenNebula 基 本 架构 图 〈 来 自 OpenNebula 官 方 资料 ) 























非常 方便 地 实现 完整 的 虚拟 





多 种 应 | 
机 生命 周期 管理 。 











场景 。 








例如 ， 简 单 的 企业 私有 云 ， 上 






































12.1.2 OpenNebula 组 件 介绍 


户 授权 管理 ， 对 外 部 








在 一 个 OpenNebula 集 群 中 包含 如 下 4 个 基础 组 件 : 


“ Front-End (前 端 ) : 用 于 运行 OpenNebula 服 务 。 


“ Host (宿主 机 ) : 用 于 运行 所 有 的 虚拟 机 。 


: Datastores (数据 存储 ) : 用 于 实际 存放 虚拟 机 的 硬盘 。 


* Network (网 络 ) 。 





pose 


1. 前 端 (Front-End) 


这 是 一 个 





民 务 器 角色 ， 其 中 包含 了 诸多 功能 组 件 ， 如 OpenNebula 管 理 进程 oned、 调 














全 性 和 性 能 





求 较 高 的 用 户 来 说 ， 这 3 个 服务 是 可 




















采用 SQLite，, 





2. 宿 主机 




















因为 它 的 配置 非常 简单 ， 但 是 如 果 有 

















(Host) 














Host 上 











，OpenNebula 也 可 以 做 到 虚拟 机 的 高 可 用 ， 


于 运行 虚拟 机 的 服务 器 ，OpenNebu 


于 生产 环境 或 者 大 规模 部 署 的 话 ， 还 是 推荐 使 有 


OpenNebula 可 以 将 同一 机 


























至 少 需要 一 个 物理 网 络 ， 并 且 确 保 Front-End 能 和 所 


， 做 到 负载 均衡 。 多 台 主 机 可 以 组 成 一 个 集群 ， 一 个 


VM Networks 


房 的 多 台 主机 统一 管理 ， 仅 需 简单 配置 ， 就 可 以 实现 虚拟 机 创建 、 开 机 、 关 机 、 删 除 等 


























云 主机 资源 。 











其 中 ， 网 络 需要 分 为 两 部 分 ， 一 部 分 是 连通 OpenNebula 集 群 中 各 组 件 ， 另 一 部 分 是 为 虚拟 机 提供 的 虚拟 网 络 。 下 瑞 























于 构建 公有 云 ， 通 过 简 生 


就 对 这 4 个 组 件 进行 展开 说 明 。 




















) 接口 






































la 支持 多 个 虚拟 化 平台 ， 





前 主流 的 Xen、KVM、VMware 都 是 支持 的 ， 当 然 KVM 是 OpenNebula 默 认 支 持 最 好 的 虚拟 化 平台 。 在 宿主 机 




















当 一 台 宿 主机 宕 机 之 后 ， 上 | 











3. 数 据 存储 (Datastores) 


Bs 




















4. 网 络 Network 


OpenNebula 从 功能 上 定义 了 两 类 不 同 的 网 络 。 第 一 ， 服 务 网 络 ， 它 | 














实例 网 络 ， 


中 ，Open vSwitch 在 生产 环境 使 








于 提供 给 虚拟 机 





























得 最 多 ,使 











122 在 KVM 中 使 用 OpenNebula 


于 存放 虚拟 机 的 硬盘 文件 ， 它 可 以 是 任意 一 种 存储 介质 ，NAS (网 络 附加 存储 ) 、SAN (存储 
， 数 据 存储 可 以 细 分 为 三 大 类 : 系统 数据 存储 、 镜 像 数据 存储 、 文 件数 据 存储 。 


























的 网 络 ， 通 俗 来 说 就 是 业务 网 络 。 这 个 网 络 相 对 服务 网 络 
动 ， 如 802.1q (通过 vlantag 的 方式 做 网 络 隔离 ) 、ebtables (通过 ebtables 策 略 来 隔离 





Open vSwitch 能 为 虚拟 机 














区 域 网 络 ) 、 直 连 存储 设备 ( 宿 























运行 的 虚拟 机 根据 OpenNebula 中 定义 的 一 些 规则 ， 自 动 在 正常 的 宿主 机 上 开启 。 





E 机 本 地 硬盘 ) 都 可 以 作为 OpenNebula 的 数据 存储 。 根 据 F 


a 的 定制 ， 就 能 实现 多 机 房 主机 资源 的 管 





度 器 mm_sched、 一 个 Web 接 口服 务 sunstone-server。 这 3 个 功能 组 件 可 以 理解 为 DpenNebula 的 大 脑 ， 对 于 安 
以 部 署 在 3 台独 立 服务 器 上 的 ， 各 组 件 之 间 通 过 XML-RPC (XML Remote Procedure Call，XML 远 程 方法 调 
MySQL 来 替换 。Front-End 本 身 还 可 以 配置 实现 高 可 


进行 通信 。OpenNebula 默 认 数据 库 


， 以 避免 OpenNebula 出 现 宕 机 。 











Wil 

















于 Front-End (前 端 ) 程序 对 宿主 机 进行 管理 、 监 控 和 镜像 文件 移动 等 操作 ， 推 荐 的 做 法 是 建立 单独 的 服务 网 络 。 第 二 ， 虚 拟 机 
复杂 很 多 ， 不 仅 需 要 考虑 连通 性 ， 还 需要 保证 虚拟 之 间 必 要 的 隔离 和 安全 性 。 目 前 ， 虚 拟 机 实例 网 络 支持 多 种 驱 
虚拟 机 网 络 ) 、ovswitch (使 用 Open vSwitch Virtual Switch 来 实现 网 络 隔离 等 复杂 的 软件 定义 网 络 功能 ) 等 。 其 
构建 复杂 的 网 络 架构 ， 同 时 增强 网 络 的 可 管理 性 。 





通过 上 边 的 内 容 ， 使 我 们 对 OpenNebulas 有 了 一 些 了 解 ， 从 本 节 开 始 将 介绍 如 何 从 零 开始 在 CentOS 系 统 之 上 搭建 第 一 个 OpenNebula 集 群 ， 并 在 搭建 完成 之 后 ， 开 始 创建 第 一 台 虚 拟 机 。 本 节 还 将 介 






































绍 一 个 非常 实用 的 功能 配置 ， 将 默认 虚拟 机 运行 在 宿主 机 的 本 地 硬盘 上 。 因 为 对 于 大 部 分 用 户 来 说， 未 必 都 有 性 能 非常 强 的 共享 存储 资源 ， 如 果 使 用 OpenNebula 默 认 的 方式 将 虚拟 机 运行 在 共享 存储 上 ， 
性 能 会 非常 不 理想 。 所 以 ， 为 了 虚拟 机 能 得 到 更 好 的 性 能 ， 将 虚拟 机 运行 在 宿主 机 的 本 地 硬盘 上 ， 就 变 得 非常 有 意义 ， 这 一 点 正好 符合 本 书 的 宗旨 一 一 实践 ， 所 以 ， 本 节 会 把 这 部 分 介绍 得 比较 细 。 









































12.2.1 {CentOS 6.5 上 快速 搭建 OpenNebula 











在 CentOS 6.5 上 搭建 OpenNebula 集 群 环境 ， 官 方 建议 至 少 需要 两 台 服 务 器 (如 果 只 是 测试 环境 的 话 ， 可 以 只 








一 台 物 理 服务 器 ) ， 











点 ， 也 就 是 宿主 机 ) ， 下 面 将 介绍 如 何 使 用 两 台 服 务 器 分 别 安装 frontend 和 node。 

















1. 前 端 安装 和 配置 


(1) 前 端 安装 


@ 在 安装 前 端的 过 程 中 需要 依赖 EPEL (Extra Packages for Enterprise Linux) 的 yum 源 ， 所 以 需要 先 安装 EPEL， 代 码 如 下 : 


[root(front-end-01 ~]# yum install epel-release -y 





























于 部 署 两 个 角色 一 一 frontend (前 端 程序 ) 和 nodes (计算 节 





@ 添 加 OpenNebula 的 yum 安 装 源 ， 安 装 当 前 最 新 的 OpenNebula 稳 定 版 4.10， 代 码 如 下 : 





[root@front-end-01 ~]# cat << EOT > /etc/yum.repos.d/opennebula.repo 
[opennebula] 

name-opennebula 

baseurl-http:// downloads.opennebula.org/repo/4.10/CentOS/6/x86 64/ 
enabled-1 

gpgcheck-0 

EOT 











@ 使 用 yum 安 装 核心 服务 和 管理 U1， 代码 如 下 : 











[root@front-end-01 ~]# yum install opennebula-server opennebula-sunstone -y 











@ 使 用 gem 安 装 OpenNebula 所 有 的 依赖 包 ， 代 码 如 下 : 














[root@front-end-01 ~]# /usr/share/one/install gems 
Distribution "redhat" detected. E 
About to install these dependencies: 

gcc 

rubygem-rake 

libxml2-devel 

libxslt-devel 

sqlite-devel 

curl-devel 

mysql-devel 

ruby-devel 

make 


+E EEO 


Press enter to continuehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... // 无 需 任何 选择 ， 一 直 回 车 到 底 ， 看 提示 确认 安装 天 





经 过 上 面 4 步 操作 ， 前 端的 组 件 和 依赖 都 安装 完了 。 


(2) 配置 管理 平台 sunstone 


先 开始 配置 OpenNebula 的 管理 平台 sunstone， 编 辑 /etc/one/sunstone-server.conf 文 件 ， 将 “: host: 127.0.0.1” 改 为 实际 环境 的 IP 地 址 ， 代 码 如 下 : 





host: 127.0.0.1” 改 为 实际 环境 的 ITP 地 址 ， 代 码 如 下 : 

[root(front-end-01 ~]# vim /etc/one/sunstone-server.conf 
«-- 此 处 省 略 无 用 输出 内 容 28 行 --> 

# Server Configuration 

:host: 10.168.107.84 // 此 处 设 定 front-end 服 务 器 IP 

:port: 9869 // 默认 端口 是 9869， 可 以 根据 需要 更 改 





配置 完毕 之 后 ， 启 动 服务 front-end 和 角色 中 的 两 个 服务 ， 代 码 如 下 : 





# service opennebula start // OpenNebula 核 心服 务 
# service opennebula-sunstone start // OpenNebula web UI 服务 

















(3) 配置 hfs 服务 器 ， 将 oneadmin 的 家 目录 共享 出 来 


























注意 ，anonuid 和 anongid 分 别 是 oneadmin 的 uid 和 gid， 意 思 是 用 户 只 用 root 挂 载 ， 就 会 按 oneadmin 用 户 授权 的 配置 完成 。 




















nfs 配 置 完成 之 后 ， 启 动 nfs 服 务 ， 并 使 用 howmount 验 证 nfs 共 享 内 容 ， 代 码 如 下 : 





[root(front-end-01 ~]# cat /etc/exports 
/var/lib/one/ *(rw,sync,no subtree check,root squash, anonuid-9869, anongid-9869) 


[rootéfront-end-01 ~]# service rpcbind start // 启动 nfs 相 关 服 务 
Starting rpcbind: [ OK ] 
[rootéfront-end-01 ~]# service nfs start 
Starting NFS services: [ OK ] 
Starting NFS quotas: [ OK ] 
Starting NFS mountd: [ OK ] 
Starting NFS daemon: [ OK ] 
Starting RPC idmapd: [ OK ] 


[rootüfront-end-01 ~]# showmount -e localhost 
Export list for localhost: 
/var/lib/one * 





(4) 配置 ssh 证 书 认证 




















切换 到 oneadmin 账 户 下 ， 配 置 家 目录 下 的 .ssh/config 文 件 ， 其 中 ,添加 StrictHostKeyChecking no， 此 处 配置 的 作用 是 自动 把 计算 机 的 密 是 加 入 .ssh/known_hosts; 添加 
UserKnownHostsFile/dev/null 的 作用 是 实时 删除 known_hosts 文 件 ， 每 次 都 是 新 的 ， 以 避免 冲突 。 配 置 完成 之 后 ， 将 .ssh/config 文 件 的 权限 配置 为 600， 代 码 如 下 : 



































[root@front-end-01 ~]# su - oneadmin 
[oneadmin@front-end-01 ~]$ cat << EOT > ~/.ssh/config 
> Host * 

> StrictHostKeyChecking no 

> UserKnownHostsFile /dev/null 

> EOT 


[oneadmin(front-end-01 -]$ chmod 600 -/.ssh/config 





经 过 上 面 的 操作 ，front-end 角 色 就 部 署 完 成 了 。 
2. 计 算 节 点 部 署 和 配置 


(1) 计算 节点 部 署 

















配置 OpenNebula 的 yum 安 装 源 ， 同 Front-End 中 一 样 ， 使 用 目前 最 新 的 稳定 版 4.10， 代 码 如 下 : 























# cat << EOT > /etc/yum.repos.d/opennebula.repo 

[opennebula] 

name-opennebula 

baseurl-http:// downloads.opennebula.org/repo/4.10/CentOS/6/x86 64/ 
enabled-1 

gpgcheck-0 

EOT 





在 安装 node 角 色 过 程 中 ，OpenNebula 必 需 的 安装 包 : 





# yum install opennebula-node-kvm -y 





启动 服务 ，node 节 点 必需 的 服务 : 








# service messagebus start // 用 于 进程 间 通 信 的 服务 
# service libvirtd start // KVM 的 管理 工具 集 
(2) 配置 网 桥 

















E 启 网 络 ， 网 桥 就 配置 完成 了 。 


由 


OpenNebula 默 认 使 用 最 简单 的 网 桥 作 为 虚拟 机 的 网 络 连接 。 编 辑 对 应 的 网 卡 配置 文件 ， 配 置 完 成 之 后 ， 











[root(ceph-host-01 ~]# cat /etc/sysconfig/network-scripts/ifcfg-em2 

DEVICE-em2 
BOOTPROTO-none 

IPV6INIT-no 
NM CONTROLLED-no 

ONBOOT-yes 

TYPE-Ethernet 
BRIDGE-br2 

[root(ceph-host-01 ~]# cat /etc/sysconfig/network-scripts/ifcfg-br2 

DEVICE-br2 

TYPE-Bridge 

BOOTPROTO-static 

NM CONTROLLED-no 

ONBOOT-yes 

IPADDR-10.168.107.13 

NETMASK-255.255.255.0 

[rootéceph-host-01]4 ifup br2 

Determining if ip address 10.168.107.13 is already in use for device br2http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/ 
[root8ceph-host-01]4 ifup em2 T 





(3) 挂 载 front-end 中 共享 出 来 的 nfs 文 件 夹 


编辑 /etc/fstab， 添 加 front-end 共 享 出 来 的 目录 ， 然 后 直接 使 用 mount-a 根 据 fstab 中 定义 的 内 容 挂 载 ， 如 果 挂 载 成 功 ， 说 明 配置 没 问 题 了 。 








10.168.107.84:/var/lib/one/ /var/lib/one/ nfs soft,intr,rsize-8192,wsize-8192 0 0 
[root(ceph-host-01 -]f mount -a 
[rootéceph-host-01 ~]# df -Th 
File; system Type Size Used Avail Use% Mounted on 
/ dev/mapper/kvmvg-root 
ext4 30G 3.5G 25G 13% / 


tmpfs tmpfs 32G 8.0K 32G 1% /dev/shm 
/dev/sdal ext3 248M 68M 168M 29$ /boot 
10.168.107.84:/var/lib/one/ 

nfs 46G 2.2G  41G 6$ /var/lib/one 





外 二 


先 编辑 /etc/fstab ， 再 使 用 mount-a 挂 载 ， 这 个 习惯 很 重要 。 很 多 时 候 ， 会 先 使 用 mount 命 令 直 接 挂 载 共享 目录 ， 然 后 再 编辑 /etc/fstab， 但 是 ， 如 果 /etc/fstab 的 内 容 编辑 时 有 问题 ， 可 能 会 导致 系统 下 次 重 
启 时 报错 ， 系 统 启动 不 了 。 对 于 没有 带 外 管理 又 不 在 身边 的 服务 器 ， 就 非常 麻烦 了 。 


3. 登 录 OpenNebula 管 理 平台 








前 端 和 计算 节点 角色 部 署 完成 之 后 ， 就 可 以 打开 OpenNebula 管 理 平台 了 ， 剩 下 的 大 部 分 配置 操作 ， 可 以 直接 在 管理 平台 上 操作 。 但 是 ，OpenNebula 还 提供 了 非常 强大 的 命令 行 工具 ， 两 者 都 可 以 操 
作 管理 OpenNebula， 读 者 可 以 根据 自己 的 方式 来 操作 。 下 面 介 绍 如 何 登录 管理 平台 。 



























































各 服务 启动 完成 之 后 ， 在 浏览 器 中 输入 http://10.168.107.84: 9869/， 这 个 地 址 是 配置 文件 “/etc/one/sunstone-server.conf” 中 配置 的 P， 如 图 12-2 所 示 。 


[Jj 10.168.107.84:3869/login 


OpenNebula 


Sunstone 














图 12-2  OpenNebula UI 登录 界面 

















户 名 密码 在 oneadmin 账 号 下 的 “.one/one_auth” 文 件 中 : 











oneadmin@front-end-01 ~]$ cat .one/one auth 
oneadmin: 9aldcbaef562404f5ba4eb022c532ea5 














登录 之 后 的 界面 如 图 12-3 所 示 ， 此 时 OpenNebula 中 还 没有 任何 资源 ， 通 过 OpenNebula Ul 也 做 不 了 任何 事情 ， 后 续 章 节 ; 





至 此 ，OpenNebula 在 Centos 6.5 系 统 上 的 最 简 部 署 已 介绍 完了 。 


E 10.168.107.84:9869 


将 介绍 如 何 添加 各 类 资源 。 
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图 12-3  OpenNebula UI 主 界面 


12.2.2 ”使 用 OpenNebula 创 建 第 一 台 KVM 虚 拟 机 





d oneadmin v ft OpenNebula ~ 
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在 上 一 节 中 ， 已 经 完成 了 OpenNebula 平 台 的 基础 搭建 但 是 ， 要 通过 OpenNebula 创 建 第 一 台 虚 拟 机 ， 还 需要 添加 和 配置 一 些 资源 。 配 置 OpenNebula 有 两 种 方式 : 一 是 在 OpenNebula UI 界面 完 























hk; 二 是 通过 OpenNebula 提 供 的 命令 行 工具 完成 。 这 两 者 从 功能 上 来 说 ,命令 行 工具 要 更 加 强大 一 些 ， 对 于 技术 人 员 来 说 ， 可 能 更 倾向 于 使 用 命令 行 工具 ， 所 以 ， 后 续 的 演示 操作 都 采 F 





于 ， 同 时 可 以 通过 OpenNebula UI 进行 验证 。 


ad 


1. 在 OpenNebula 平 台中 添加 KVM 宿 主机 










































































命令 行 的 方式 进 





切换 到 oneadmin 用 户 ， 使 用 onehost create 命 令 添 加 IP 为 10.168.107.13 的 宿主 机 到 OpenNebula 平 台 ， 参 数 -i 指 定 的 是 虚拟 化 驱动 类 型 为 KVM ，-v 指 定 的 是 虚拟 化 类 型 为 KVM ，-n 指 定 虚拟 机 的 网 络 





类 型 dummy 表 示 默 认 的 网 桥 模式 ， 完 整 的 命令 如 下 : 








[root@front-end-01 ~]# su - oneadmin 
[oneadmin(front-end-01 -]$ onehost create 10.168.107.13 -i kvm -v kvm -n dummy 
ID: 8 

















执行 完 添 加 命令 之 后 ， 使 用 “onehost list” 查 看 宿主 机 状态 ， 会 发 现 此 时 状态 为 init， 表 示 OpenNebula 正 在 对 宿主 机 进行 初始 化 。 





[oneadmin(front-end-01 ~]$ onehost list 
ID NAME CLUSTER RVM ALLOCATED CPU ALLOCATED MEM STAT 
8 10.168.107.13 = 0 一 - init 





稍 等 片刻 ， 再 次 查看 ， 会 看 到 状态 变 成 on， 同 时 宿主 机 的 一 些 配置 信息 也 显示 了 。 





[oneadmin8front-end-01 ~]$ onehost list 
ID NAME CLUSTER RWM ALLOCATED CPU ALLOCATED MEM STAT 


8 10.168.107.13  - 0 0 / 2400 (02) OK / 62.9G (0$) on 





2. 在 OpenNebula 平 台中 添加 虚拟 机 网 络 


(1) 定义 网 卡 的 配置 文件 

















网 卡 的 配置 文件 命名 为 vm-network1.one， 其 中 ，NAME 表 示 网 卡 名 称 ，BRIDGE 指 定 网 桥 名 称 ， 本 例 使 用 宿主 机 中 创建 的 网 桥 br2，AR 表 示 网 卡 的 IP 定 义 ，TYPE 指 定 IP 类 型 是 ipv4，1IP 指 定 详细 的 IP 











地 址 ，SIZE 指 定 IP 的 数量 。 





NAME = "inside-network" 
BRIDGE = br2 
aR = 
TYPE = IP4, 
IP = 192.168.20.100, 
SIZE = 3 





(2) 将 网 卡 配置 添加 到 OpenNebula 平 台 




















使 用 “onevnet create” 命 令 将 刚才 定义 的 网 卡 配 置 添加 到 OpenNebula 平 台 ， 再 使 用 “onevnet list” 命 令 可 以 参看 结果 。 














[oneadmin@front-end-01 -]$ onevnet create vm-networkl.one 


ID: Q 
[oneadminüfront-end-01 -]$ onevnet list 
ID USER GROUP NAME CLUSTER BRIDGE LEASES 
0 oneadmin oneadmin inside-network = br2 0 





3. 在 OpenNebula 平 台中 添加 虚拟 机 镜像 


























虚拟 机 镜像 的 添加 有 两 种 方式 : @ 手 动 上 传 自己 制作 的 虚拟 机 镜像 ，@ 使 用 OpenNebula 提 供 的 虚拟 机 镜像 。 一 般 来 说 ， 大 多 数 公司 都 会 对 虚拟 机 镜像 做 一 些 针对 自己 业务 或 者 安全 的 定制 。 如 果 自己 
没有 做 定制 的 话 ， 直 接 使 用 OpenNebula 提 供 的 镜像 也 是 非常 不 错 的 选择 。 


















































使 用 “oneimage create” 命 令 添 加 虚拟 机 镜像 ， 通 过 参数 --name 指 定 镜像 名 称 ; --path 指 定 镜像 地 址 (OpenNebula 官 方 网 址 为 http://appliances.c12g.com， 读 者 可 以 打开 这 个 链接 ， 选 择 想 要 下 
载 的 镜像 ) ; 参数 --driver 指 定 硬盘 格式 ， 根 据 实际 情况 填写 硬盘 格式 ， 本 处 为 qcow2; 参数 --datastore 指 定 存 储 池 ， 默 认 是 default， 完 整 命令 如 下 : 





[oneadmin@front-end-01 ~]$ oneimage create --name "CentOS-6.5" \ 

ea --path " http:// appliances.cl2g.com/CentOS-6.5/centos6.5.qcow2.gz" \ 
> --driver qcow2 

> --datastore default 

ID: 1 























使 用 “oneimage list” 命 令 查看 OpenNebula 中 已 有 的 镜像 列表 ， 刚 才 创 建 的 CentOS 7.0 镜 像 当前 状态 是 lock， 这 是 正常 的 ， 因 为 这 个 镜像 需要 从 OpenNebula 网 站 下 载 。 





[oneadmin@front-end-01 ~]$ oneimage list 
ID USER GROUP NAME DATASTORE SIZE TYPE PER STAT RVMS 
0 oneadmin oneadmin CentOS-6.5 default 10G OS No lock 0 











从 官网 下 载 镜像 的 时 间 比较 长 ， 待 下 载 完 成 之 后 ， 再 次 使 用 “oneimage list” 命 令 查看 ， 状 态 变 为 rdy， 代 码 如 下 : 











[oneadmin@front-end-01 ~]$ oneimage list 
ID USER GROUP NAME DATASTORE SIZE TYPE PER STAT RVMS 
0 oneadmin | oneadmin  CentOS-6.5 default 10G OS No rdy 0 





4. 在 OpenNebula 平 台中 添加 虚拟 机 模板 








首先 介绍 两 个 概念 : 镜像 和 模板 。 在 OpenNebula 中 镜像 是 指 安装 完 系 统 的 虚拟 机 硬盘 文件 。 模 板 是 指 完整 地 定义 了 虚拟 机 配置 ， 包 括 CPU、 内 存 、 网 卡 ， 使 用 哪个 镜像 等 信息 ， 也 可 以 说 模板 就 是 一 
台 庶 拟 机 的 配置 描述 。 在 OpenNebula 中 创建 虚拟 机 ， 都 是 通过 模板 定义 的 内 容 来 创建 的 。 























通过 “onetemplate create” 命 令 创建 模板 ， 参 数 --name 指 定 模板 名 称 ，--cpu 指 物理 占 CPU 的 百分比 ，--vcpu 指 虚拟 CPU 个 数 ，--memory 指 内 存 大 小 ， 单 位 为 MB，--arch 指 虚拟 机 架构 ，--disk 
指 镜像 名 称 ，--nic 指 虚拟 机 网 卡 名 称 --vnc 指 开启 远程 控制 功能 ，--ssh 指 开启 ssh 功 能 ， 完 整 的 命令 如 下 : 





[oneadmin8front-end-01 ~]$onetemplate create --name "CentOS-6.5-template" 
--cpu 1 --vcpu 1 --memory 512 \ 

-—-arch x86 64 --disk "CentOS-6.5" --nic "inside-network" --vnc \ 

--ssh 

















使 用 onetemplate list 命 令 查看 配置 结果 ， 模 板 添加 完成 。 





[oneadmin@front-end-01 ~]$ onetemplate list 
ID USER GROUP NAME REGTIME 
3 oneadmin oneadmin CentOS-6.5-template 01/17 15:18:26 





5. 在 OpenNebula 平 台中 创建 第 一 台 虚 拟 机 

















使 用 onetemplate instantiate 命 令 可 以 创建 虚拟 机 : 





[oneadmin@front-end-01 -]$ onetemplate instantiate "CentOS-6.5-template" --name 
"my-first-vm" 
VM ID: 5 














创建 之 后 立即 使 用 onevm list 查 看 虚拟 机 状态 ， 此 时 为 prol， 虚 拟 机 创建 过 程 中 ， 状 态 依 次 从 PENDING ( 挂 起 ) 到 PROLOG (开始 创建 ) ， 最 后 到 RUNNING (运行 ) ， 代 码 如 下 : 





[oneadmin@front-end-01 ~]$ onevm list 
ID USER GROUP NAME STAT UCPU UMEM HOST TIME 
5 oneadmin oneadmin my-first-vm prol 0 OK 10.168.107 Od 00h00 











稍 等 片刻 ， 再 使 用 onevm list 查 看 虚拟 机 状态 ， 即 可 看 到 虚拟 机 状态 变 成 runn 了 ， 代 码 如 下 : 











[oneadmin8front-end-01 -]$ onevm list 
ID USER GROUP NAME STAT UCPU UMEM HOST TIME 
5 oneadmin oneadmin my-first-vm runn 0 OK 10.168.107 Od 00h00 











通过 上 面 几 步 操作 之 后 ， 第 一 台 虚 拟 机 已 经 创建 完成 了 ， 此 时 可 以 登录 OpenNebula UI， 可 以 直观 地 看 到 创建 的 虚拟 机 。 登 录 页 面 ， 如 图 12-4 所 示 ， 选 择 左 侧 Virtual Machines 菜 单 ， 看 到 创建 的 虚拟 
机 my-first-vm 状 态 是 RUNNING。 
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812-4 ”虚拟 机 展示 页 面 
































单 击 最 右 侧 的 显示 器 图 标 ， 打 开 虚 拟 机 的 远程 终端 ， 如 图 12-5 所 示 。 
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图 12-5 虚拟 机 远程 终端 界面 






































至 此 ， 已 经 使 用 OpenNebula 创 建 了 第 一 台 KVM 虚 拟 机 。 但 是 这 人 台 虚 拟 机 显然 还 不 能 使 用 ， 第 一 ， 这 人 台 虚 拟 机 中 现在 没有 配置 |P，OpenNebula 对 于 虚拟 机 1P 配 置 支持 并 不 好 ; 虚拟 机 IP 配 置 方法 主要 
有 3 种 : @ 使 用 DHCP; 手动 注入 IP 配 置 脚 本 ;，@ 手 动 配置 |P。 前 两 种 方法 ， 在 实际 的 应 用 场景 中 都 有 ， 第 三 种 方法 适合 少量 测试 时 ， 本 书 的 第 16 章 将 对 虚拟 机 IP 配 置 进 行 详细 介绍 ， 在 此 就 不 再 重复 了 。 







































































JE. 








OpenNebula 在 默认 配置 中 ， 将 虚拟 机 的 磁盘 镜像 存储 在 共享 文件 系统 上 ， 这 种 配置 能 方便 实现 对 业务 几乎 无 感知 的 故障 迁移 ， 但 同时 也 带 来 如 下 两 个 问题 : 














1) 增加 了 一 个 集中 式 的 故障 点 ， 一 旦 共享 存储 出 现 问题 ， 上 面 的 全 部 虚拟 机 都 会 受到 影响 ， 甚 至 存在 数据 丢失 的 风险 ， 对 于 特别 是 包含 DB 类 业务 的 场景 下 ， 需 要 慎 用 。 





























2) 虚拟 机 I/O 性 能 问题 。 普 通 的 共享 文件 系统 ， 性 能 普遍 表现 一 般 ， 虚 拟 机 I/O 性 能 与 承载 的 虚拟 机 数量 成 反比 例 关系 。 






























































为 了 解决 这 两 个 问题 ， 本 节 将 着 重 介绍 如 何 使 用 OpenNebula 让 虚拟 机 硬盘 创建 在 宿主 机 本 地 硬盘 上 。 这 样 既 可 以 避免 因为 共享 文件 系统 故障 而 导致 大 量 虚 拟 机 受 影响 ， 又 可 以 通过 在 宿主 机 上 配置 高 
性 能 SSD 盘 ， 使 虚拟 机 能 获得 非常 高 的 /O 性 能 。 

















默认 情况 下 ，OpenNebula 定 义 了 3 类 数据 资源 ， 使 用 onedatastore list 命 令 可 以 查看 这 些 资 源 : system 类 型 的 资源 ID 为 0， 存 放 的 是 处 于 运行 状态 的 虚拟 机 的 磁盘 映像 default 类 型 的 资源 ID 为 1， 用 
于 存放 虚拟 机 镜像 ; files 类 型 的 资源 ID 为 2， 用 于 存放 非 镜像 类 型 的 普通 文件 。 




















[oneadmin@front-end-01 -]$ onedatastore list 


ID NAME SIZE AVAIL CLUSTER IMAGES TYPE DS TM 
0 system 45.1G 85$  - 0 sys 一 shared 
1 default 45.1G 85$  - 2 img fs shared 


2 files 45.1G 85$  - Q fir. fs. ssh 




















默认 配置 下 ，system 和 default 类 型 的 资源 使 用 tm_shared 驱 动 传输 磁盘 镜像 ， 就 是 共享 类 型 。 所 以 ， 为 了 使 虚拟 机 运行 在 宿主 机 自身 的 硬盘 上 ， 需 要 将 system 和 default 类 型 的 资源 配置 为 tm_ssh 驱 动 


传输 磁盘 镜像 。 


2.OpenNebula 数 据 资 源 传输 驱动 配置 


更 改 system 和 default 类 型 的 资源 传输 驱动 ， 配 置 为 sh 类型， 使 镜像 传输 时 使 























使 用 onedatastore update 0 编辑 id=0， 即 system 资 源 池 的 属性 。 执 行 的 时 候 可 能 出 现 类 似 的 报错 : Editor not defined, XÆ 








ssh 方 式 将 镜像 传输 到 宿主 机 上 ， 然 后 再 启动 虚拟 机 。 





因为 OpenNebula 中 默认 定义 的 编辑 器 路 径 是 /usr/binvi， 如 果 系 统 vi 编 


辑 器 的 路 径 不 是 这 个 路 径 ， 就 会 报错 。 解 决 办 法 就 是 创建 一 个 软 连接 ， 代 码 如 下 : 





[oneadmin@front-end-01 ~]$ onedatastore update 0 

Editor not defined 

[oneadmin@front-end-01 ~]$ grep EDITOR PATH /usr/lib/one/ruby/cli/one helper.rb 
EDITOR PATH-'/usr/bin/vi' T z 

[oneadmin(front-end-01 ~]# ln -s /usr/bin/vim /usr/bin/vi 








编辑 system 资 源 池 属 性 ， 将 默认 的 share 传 输 驱 动 改 成 sh， 代 码 如 下 : 





[oneadmin@front-end-01 -]$ onedatastore update 0 
BASE PATH-"/var/lib/one// datastores/" 
SHARED-"YES" 

TM MAD-"ssh" 
TYPE-"SYSTEM DS" 


// 原本 是 shared 现 改 为 ssh 








编辑 default 资 源 池 属 性 ， 将 默认 的 share 传 输 驱动 改 成 ssh， 代 码 如 下 : 





[oneadmin@front-end-01 ~]$ onedatastore update 1 
BASE PATH="/var/lib/one// datastores/" 

CLONE TARGET="SYSTEM" 
DISK TYPE="FILE" 

DS MAp-"fs" 

LN TARGET-"NONE" 

TM MAD-"ssh" 
TYPE-"IMAGE DS" 


// 原本 是 shared 现 改 为 ssh 





3.OpenNebula 默 认 本 地 资源 存储 路 径 配 置 

















编辑 默认 存储 资源 路 径 ， 在 /etc/one/oned.conf 配 置 文件 中 将 DATASTORE LOCATION 配置 为 宿主 机 上 














于 存放 虚拟 机 硬盘 的 路 由 ， 这 里 使 用 /datapool/local_storage， 代 码 如 下 : 




















[root@front-end-01]# vim /etc/one/oned.conf 
DATASTORE LOCATION = /datapool/local storage 





配置 修改 完毕 ， 


由 





量 启 OpenNebula 服 务 ， 代 码 如 下 : 





[root@front-end-01 bin]# service opennebula restart 
Stopping OpenNebula daemon: oned and scheduler stopped 


[ OK ] 
Starting OpenNebula daemon: [ OK ] 





4. 宿 主机 对 应 本 地 路 径 配 置 





在 宿主 机 上 创建 /datapoollocal storage 目录 ， 并 把 目录 所 属 权 限制 定 为 oneadmin， 代 码 如 下 : 








[rootéceph-host-02 ]# chown oneadmin.oneadmin /datapool/local storage 





5. 创 建 虚拟 机 进行 验证 

















配置 完成 后 ， 使 用 onetemplate instantiate"CentOS-6.5-template"--name"vm_run_in_local_storage "测试 创建 虚拟 机 ， 观 察 整个 创建 过 程 中 虚拟 机 的 状态 。 








[oneadmin@front-end-01 ~]$ onetemplate instantiate "CentOS-6.5-template" --name 
"vm run in local storage" 

WM ID: 8 ^ 2 
[oneadmin8front-end-01 ~]$ onevm list 


// 刚 创建 的 时 候 STRAT 是 挂 起 


ID USER. GROUP NAME STAT UCPU UMEM HOST TIME 

8 oneadmin oneadmin vm run in local pend 0 OK Od 00h00 
[oneadmin&front-end-01 -]$ onevm list // 稍 后 STRT 是 开始 创建 

ID USER GROUP NAME STAT UCPU UMEM HOST TIME 

8 oneadmin oneadmin vm run in local prol 0 OK 10.168.107 Od 00h00 


[oneadmin$front-end-01 ~]$ onevm list // 最 后 正常 状态 为 运行 
ID USER GROUP NAME STAT UCPU UMEM 


HOST TIME 
8 oneadmin oneadmin vm run in local runn 93 512M 10.168.107 Od 00h00 








验证 宿主 机 /datapooVylocal storage 目录 中 是 否 有 虚拟 机 硬盘 文件 ，0 表 示 资 源 类 型 system ，8 表 示 虚 拟 机 的 id (对 应 创建 时 的 id) 。 至 此 ， 完 成 了 将 虚拟 机 运行 在 宿主 机 本 地 磁盘 的 配置 。 











[oneadmin&ceph-host-02]$ 11 /datapool/local storage/0/8 

total 1485552 

-rw-rw-r-- 1 oneadmin oneadmin 873 Jan 18 17:24 deployment.O 

-rw-r--r-- 1 oneadmin oneadmin 1520828416 Jan 18 17:26 disk.0 

-rw-r--r-- 1 oneadmin oneadmin 372736 Jan 18 17:24 disk.1 

lrwxrwxrwx 1 oneadmin oneadmin 34 Jan 18 17:24 disk.l.iso -> /datapool/ 
local storage/0/8/disk.1 





12.3 ”OpenNebula 常 见 故障 处 理 








本 节 介绍 笔者 在 使 用 OpenNebula 过 程 中 遇 到 的 两 个 故障 案例 ， 读 者 碰 到 类 似 的 问题 可 以 参考 。 

















1. 虚 拟 机 无 法 创建 


(1) 故障 描述 


创建 虚拟 机 过 程 中 ， 发 现 无 法 创建 ， 虚 拟 机 状态 未 fail， 查 看 /var/log/one/oned.log 日 志文 件 ， 代 码 如 下 : 





Sat Jan 17 15:27:16 2015 [Z0] [VMM] [D]: Message received: LOG I 1 Successfully 
execute network driver operation: pre. // 此 处 是 正常 的 

Sat Jan 17 15:27:16 2015 [Z0] [VMM] [D]: Message received: LOG I 1 Command 
execution fail: cat << EOT | /var/tmp/one/vmm/kvm/deploy '/var/lib/o 

ne// datastores/0/l/deployment.O0' '10.168.107.13' 1 10.168.107.13 

Sat Jan 17 15:27:16 2015 [20] [VMM] [D]: Message received: LOG I 1 error: Failed 
to create domain from /var/lib/one// datastores/0/1/deployment.0 

<-- 此 处 开始 报错 ， 提 示 无 法 使 用 deployment .0 文件 创建 虚拟 机 -> 

Sat Jan 17 15:27:16 2015 [20] [VMM] [D]: Message received: LOG I 1 error: 
internal error process exited while connecting to monitor: qgemu-kvm: 

-drive file-/var/lib/one// datastores/0/1/disk.0,if-none,id-drive-ide0-0- 
0,format-qcow2,cache-none: could not open disk image /var/lib/one// da 
tastores/0/1/disk.0: Permission denied 

<-- 此 处 提示 权限 问题 访问 disk.0 被 拒绝 --> 


(2) 问题 分 析 与 处 理 





从 日 志 告警 提示 中 明显 看 到 一 个 问题 : 访问 disk.0 被 拒绝 。 于 是 登录 到 10.168.107.13， 在 这 人 台 宿主 机 上 找到 /var/lib/one//datastores/0/1/deployment.0 文 件 ， 手 动 执 行 virsh create 
deployment.0， 得 到 如 下 报错 信息 ， 这 是 一 个 和 权限 有 关 的 报错 。 





[oneadmin@ceph-host-01 1]$ virsh create deployment.0 
error: Failed to create domain from deployment.0 
error: Unable to create tap device vnet$d: Operation not permitted 





在 Libvirt 配 置 文件 /etc/libvirt/qemu.conf 中 涉及 部 分 权限 配置 ， 检 查 其 中 的 user、group 的 配置 ， 发 现 不 是 oneadmin 的 话 ， 要 改 为 oneadmin : 





[root(ceph-host-01 gemu]£ cat /etc/libvirt/qemu.conf 
user - "oneadmin" 

group = "oneadmin" 

dynamic ownership = 0 


修改 完成 之 后 ， 


中 





启 libvirtd 服 务 ， 故 障 排除 。 





[root@ceph-host-01 aqemu]# service libvirtd restart 
Stopping libvirtd daemon: 
Starting libvirtd daemon: 


oo 
RR 





2. 计 算 节 点 状态 异常 


(1) 故障 描述 











使 用 onehost create 添 加 宿主 机 ， 等 待 片刻 之 后 ， 查 看 宿主 机 状态 为 err。 











[oneadmin@front-end-01 ~]$ onehost create 10.168.107.14 -i kvm -v kvm -n dummy 
[oneadmin8front-end-01 ~]$ onehost list 

ID NAME CLUSTER RVM ALLOCATED CPU ALLOCATED MEM STAT 

9 10.168.107.14  - 0 ES - err 





再 查看 /var/log/one/oned.log 日 志 : 





Sat Jan 17 17:36:54 2015 [20] [InM] [D]: Monitoring host 10.168.107.14 (9) 

Sat Jan 17 17:36:54 2015 [Z0][InM][I]: Command execution fail: scp -r /var/lib/ 
one/remotes/. 10.168.107.14:/var/tmp/one // 执行 命令 失败 

Sat Jan 17 17:36:54 2015 [20] [InM] [I]: Warning: Permanently added '10.168.107.14' 
(RSA) to the list of known hosts. 

Sat Jan 17 17:36:54 2015 [Z0] [InM] [I]: Permission denied, please try again. 

Sat Jan 17 17:36:54 2015 [Z0] [InM] [I]: Permission denied, please try again. 

Sat Jan 17 17:36:54 2015 [Z0] [InM] [I]: Permission denied (publickey,gssapi- 
keyex, gssapi-with-mic, password). // 权限 拒绝 

Sat Jan 17 17:36:54 2015 [20] [InM] [I] : lost connection 

Sat Jan 17 17:36:54 2015 [Z0][InM][I]: ExitCode: 1 

Sat Jan 17 17:36:54 2015 [Z0] [ONE] [E]: Error monitoring Host 10.168.107.14 (9): 








(2) 问题 分 析 与 处 理 
从 上 面 的 报错 信息 可 以 发 现 ，OpenNebula 管 理 端 在 连接 宿主 机 时 ， 存 在 报错 权限 拒绝 的 错误 。 这 个 问题 肯定 和 权限 有 关 。 
OpenNebula 管 理 端 和 宿主 机 之 间 的 通信 是 通过 ssh 的 无 密码 登录 进行 的 ， 权 限 拒绝 的 问题 ， 最 有 可 能 就 是 无 密码 登录 有 问题 。 


尝试 在 OpenNebula 管 理 端 上 无 密码 登录 10.168.107.14， 提 示 输 入 密码 。 说 明 OpenNebula 管 理 服务 器 到 宿主 机 的 无 密码 登录 配置 有 问题 。 





[oneadmin@front-end-01 ~]$ ssh oneadmin@10.168.107.14 
Warning: Permanently added '10.168.107.14' (RSA) to the list of known hosts. 
oneadmin810.168.107.14's password: 





确认 无 密码 登录 配置 正常 之 后 ， 问 题解 决 。 


124 本章 小 结 








本 章 主 要 介绍 了 OpenNebula 管 理 平台 的 基本 搭建 和 配置 ， 使 用 OpenNebula 实 现 对 KVM 虚 拟 机 的 管理 ， 同 时 还 介绍 了 如 何 使 KVM 虚 拟 机 完全 运行 在 宿主 机 上 ， 不 依赖 共享 文件 系统 。 不 可 否 
认 ，OpenNebula 非 常 强大 ， 对 于 OpenNebula 还 有 很 多 值得 研究 的 地 方 ， 鉴 于 本 书 的 侧重 点 和 篇 幅 的 限制 ， 本 章 并 未 对 OpenNebula 高 级 功能 进行 介绍 。 笔 者 希望 本 章 能 起 到 一 个 抛砖引玉 的 作用 ， 读 者 
可 以 通过 OpenNebula 官 网 文档 库 http://docs.opennebula.org/4.10/index.html 获 取 最 为 全 面 的 帮助 文档 。 
































下 一 章 将 为 读者 再 介绍 另外 几 款 常见 的 开源 管理 平台 。 


第 13 章 ”其 他 管理 平台 介绍 


第 11 章 为 读者 介绍 的 Openstack 平 台 是 目前 最 流行 的 云 平台 ， 第 12 章 介绍 的 OpenNebula 比 较 适 合 快速 部 署 私 有 云 。 本 章 将 为 读者 介绍 几 款 在 理念 和 架构 上 比较 有 特色 的 管理 平台 ， 以 及 每 种 管理 平台 





























13.1 ”ConVirt 管 理 平台 介绍 














ConVirt 支 持 KVM、Xen、HyperV 等 多 种 虚拟 化 引擎 ， 也 支持 通过 vCenter 的 接口 管理 VMWare ESXi， 同 时 支持 对 OpenStack 的 管理 ， 也 支持 管理 亚马逊 的 云 主机 。 
ConVirt 有 如 下 3 个 版 本 : 

“ 社区 版 : 开源 版 本 ， 可 以 免费 使 用 。 

“ 企业 版 : 商业 版 ， 主 要 用 于 构建 企业 私有 云 。 


“ 企业 云 版 : 商业 版 ， 主 要 用 于 构建 公有 云 。 


13.1.1 ConVirt 的 理念 





ConVirt 的 理念 是 云 管理 平台 ， 致 力 于 在 其 他 的 云 管理 平台 上 构建 一 套 标 准 接口 ， 统 一 管理 私有 云 、 公 有 云 、 混 合 云 ， 以 实现 如 下 目标 : 











“ 通过 一 个 管理 界面 管理 多 个 云 环境 。 

“ 通过 一 个 管理 界面 完成 对 模板 、 配 置 、 管 理 、 监 控 、 迁 移 等 整个 虚拟 机 生命 周期 的 管理 。 
“ 通过 一 个 管理 界面 完成 网 络 、 存 储 、 虚 拟 机 、 宿 主机 资源 管理 。 

“ 通过 一 个 管理 界面 管理 一 个 企业 所 有 的 外 包公 有 云 。 

“ 统一 自动 备份 、 恢 复 ， 并 进行 高 可 用 、 基 于 策略 的 负载 均衡 管理 。 


“ 将 公有 云 上 的 计算 、 网 络 、 存 储 等 资源 池 组 成 虚拟 数据 中 心 ， 通 过 虚拟 的 数据 中 心 实现 资源 按 需 使 用 。 
13.1.2 ”ConVirt 的 架构 


ConVirt 开 源 版 是 标准 的 三 层 架 构 ; 

: 高 交互 性 的 Web 管 理 界面 。 

: 数据 存储 : 存储 虚拟 机 和 服务 器 配置 、 任 务 历史 记录 、 性 能 信息 等 。 
“ 管理 机 : 不 需要 使 用 代理 或 者 客户 端 ， 直 接 通过 管理 机 进行 管理 。 
ConVirt 开 源 版 主要 功能 如 下 : 

“ 多 用 户 管理 。 

“ 服务 器 池 管 理 ， 一 个 服务 器 池 同 时 共享 同一 存储 的 一 组 服务 器 。 

“ 模板 管理 ， 支 持 第 三 方 模板 应 用 市 场 ， 支 持 精简 模式 的 模板 。 

“ 对 虚拟 机 24 小 时 监控 、 详 尽 的 配置 管理 。 

“ 康 拟 机 资源 限制 、 自 动 在 线 迁移 。 

“ 存储 监控 管理 。 


.网络 监控 管理 。 


13.2 Cloudstack 管 理 平台 介绍 





CloudStack 一 度 是 OpenStack 有 力 的 竞争 对 手 。Cloud Stack 和 OpenStack 最 大 的 区 别 是 ，OpenStack 由 社区 维护 ，CloudStack 主 要 由 思 杰 公司 维护 。CloudStack 开 发 语言 为 Java， 此 前 为 
Cloud.com 研 发 应 用 的 商业 软件 ， 后 被 Citrix 思 杰 收 购 ，2012 年 4 月 5 日 思 杰 宣布 将 CloudStack 项 目 提交 至 Apache 基 金 会 ,之 后 CloudStack 成 为 Apache 许 可 下 的 完全 开源 软件 ， 已 经 加 入 到 Apache 基 金 会 


中 的 开源 云 计算 平台 。 





















































CloudSstack 使 用 Java 开 发 ， 是 laaS 层 的 解决 方案 ， 主 要 功能 如 下 : 














© 支持 XenServer/XCP、KVM、Hyper-V、VMware ESXi (需要 有 vSphere vCenter) 。 
“ 提供 友好 的 Web 管 理 界 面 。 

“ 提供 API。 

- 提供 亚马逊 S3/EC2 兼 容 API。 

“ 通过 主 存储 管理 虚拟 机 镜像 ， 通 过 第 二 存储 管理 模板 、 快 照 、ISO 镜 像 。 

“ 从 二 层 到 七 层 多 种 的 网 络 服务 支持 ， 如 DHCP、NAT、 防 火 墙 、VPN， 等 等 。 


:支持 网 络 、 计 算 、 存 储 资 源 审 计 。 


“ 支持 多 租户 隔离 。 


“支持 用 户 管理 。 


1.CloudStacki s: 




















Cloudstack 采 用 了 “框架 + 插件 ”的 系统 构架 ， 通 过 不 同 的 插件 来 提供 对 不 同 虚拟 化 技术 的 支持 。 对 于 标准 的 Xen/KVM 计 算 节点 ，CloudStack 需 要 在 计算 节点 上 安装 Agent 与 控制 节点 进行 交互 ; 对 
于 XenServer/VMWare 计 算 节点 ，CloudStack 通 过 XenServer/VMWare 所 提供 的 XML-RPC 远 程 调用 接口 与 计算 节点 进行 交互 。 
































CloudStack 本 身 是 一 个 虚拟 化 管理 平台 ， 但 是 它 通 过 CloudBridge 提 供 了 与 Amazon EC2 相 兼容 的 云 管 理 接口 ， 对 外 提供 1aaS 服 务 。 


2.CloudStack 架 构 





Cloudstack 对 于 云 有 独特 的 理解 ， 有 主 存储 、 第 二 存储 、 集 群 、Pods、Zone 等 概念 。 


(1) 主 存储 

















存储 用 来 保存 虚拟 机 镜像 ， 支 持 本 地 磁盘 、NFS、iSCSI、FC、Ceph、GlusterFS 等 方式 。 主 存储 的 特性 如 下 : 





“ 为 虚拟 机 提供 镜像 存储 。 
: 高 IOPS。 

“ 同 集群 都 可 以 访问 。 

“ 支持 分 层 存 储 。 

(2) 第 二 存储 


第 二 存储 提供 虚拟 机 模板 、1SO 的 存放 ， 主 要 特点 是 一 次 写 入 ， 多 次 读 取 ， 只 支持 NFS 的 方式 。 





(3) 集群 














如 图 13-1 所 示 ， 集 群 是 共享 同一 个 主 存储 的 一 批 计算 节 点 ， 虚 拟 机 镜像 存储 在 主 存储 上 ， 可 以 在 一 个 集群 内 部 迁移 。 


(4) Pods 


























如 图 13-2 所 示 ，Pods 由 一 个 或 多 个 集群 组 成 ， 通 常 是 同一 个 1P 子 网 内 的 集群 。 
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(5) 区 域 





图 13-2 CloudStack Pod 概 念 





如 图 13-3 所 示 ， 








区 域 (Zone) 通常 是 物理 上 的 一 个 数据 中 心 ， 包 含 一 个 或 者 多 个 Pod。 一 个 Zone 通常 共享 一 个 二 级 存储 。 
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图 13-3 CloudStack Zone 概念 


13.3 ”oVirt 管 理 平台 介绍 




















oVirt (open Virtualization) 是 红 帽 公司 商业 的 云 管 理 平台 (Red Hat Enterprise Virtualization, RHEV) 的 社区 版 本 ， 主 要 使 用 场景 是 私有 云 管理 ， 在 架构 设计 上 使 用 了 节点 /引擎 
(Node/Engine) 架构 ， 特 点 是 专注 KVM、 Web 界 面 、 易 于 搭建 。 一 些 KYM 上 的 新 技术 ， 如 spice、GlusterFS 等 都 首先 在 oVirt 上 得 到 支持 。 







































































特别 要 提 到 的 一 点 是 ，oVirt 有 一 个 中 文 社区 (http://ovirt-china.org) ， 有 非常 详细 的 中 文 资料 及 邮件 列表 、IRC、wiki、blog 等 沟通 工 . 

















1.0Virti s: 








oVirt 的 理念 是 数据 中 心虚 拟 化 管理 平台 解决 方案 ， 目 标 是 方便 、 快 速 地 构建 私有 云 。 





oVirt 的 特性 如 下 : 
: 对 宿主 机 节点 的 管理 : 支持 基于 数据 中 心 、 集 群 的 管理 ， 比 较 有 特色 的 一 个 功能 是 支持 宿主 机 故障 时 ， 通 过 HP ILO、Dell IDRAC、IPMI 等 硬件 管理 卡 强制 关闭 宿主 机 ， 以 保证 集群 可 靠 性 。 
“ 对 虚拟 机 的 管理 : 可 以 完成 虚拟 机 的 创建 、 快 照 、 删 除 、 基 于 模板 的 克隆 等 常见 操作 。 


“迁移: 在线 及 离线 迁移 虚拟 机 。 


d 


“ 高 可 用 : 当 一 台 宿 主机 宕 机 时 ， 在 另外 一 台 宿 主机 上 自动 开启 虚拟 机 。 


宿主 机 、 虚 拟 机 性 能 查看 及 统计 。 


< 支持 NFS、iSCSI、FC、GlusterFS 等 存储 方式 。 


“ 支持 多 端口 的 网 口 绑 定 。 





“支持 命令 行 工 具 ， 可 以 完成 图 形 界面 的 大 部 分 功能 











“ 支持 活动 目录 。 


“ 提供 SDK， 支 持 多 种 开发 语音 。 


2.0Virt 架 构 





























oVirt 由 客户 端 和 管理 端 组 成 ， 客 户 端 即 oVirt-Node， 类 似 于 VMWare ESXi， 最 早 由 Fedaro 定 制 而 成 ， 如 图 13-4 所 示 。 现 在 最 新 的 3.5 版 本 已 经 使 用 RHEL6 定 制 ， 也 说 明 oVirt 已 经 可 以 在 生产 环境 使 

































































。oVirt 也 支持 在 Linux 系 统 上 安装 VDSM 服 务 而 得 到 一 个 oVirt 客 户 端 ， 客 户 端 还 有 Live 版 本 ， 支 持 从 光盘 直接 启动 。 管 理 端 oVirt-Engine 类 似 基于 Web 页 面 的 VMWare vCenter, 















































Terminal 
File Edit View Search Terminal Help 


ovin- 


oVirt installation 


x oVirt allinOne is going to be installed 
OVI Choose which option you would like to install 
INFO: all passwords on the live system are; "ovirt" 


automatic 
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EJ13-4 oVirt live tfi 


如 图 13-5 所 示 ，oVirt 按 照 数据 
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操作 系统 





中 心 来 划分 资源 ， 每 个 数据 


Blank 
Other OS 


默认 的 显示 类 型 : SPICE 


优先 权 : 


User admin@intemal loaned in 


中 心 都 有 整体 的 存储 、 网 络 、 模 板 资源 。 


定义 的 内 存 : 1024 MB 
保证 的 物理 内 存 : 1024 MB 


计算 资源 按照 集群 划分 ， 





每 个 集群 从 数据 中 心 获取 存储 、 网 络 、 模 板 资源 。 


CPU 内 核 的 数 星 : 1 (1 Socket(s), 1 Core(s) per Socke 


Æ Ah CPU 数 : N/A 
高 度 可 用 的 : 8 
显示 器 的 教 量 : 1 
USB 策略 : 禁用 


413-5 oVirt 数 据 中 心 管理 界面 


如 图 13-6 所 示 ，oVirt 对 宿主 机 管理 非常 详细 ， 软 件 和 硬件 信息 都 很 齐全 ， 甚 至 可 以 通过 IPIM 控 制 宿 主机 的 电源 。 





操作 系统 版 本 : 
内 核 版 本 : 
KVM 版 本 : 
LIBVIRT 版 本 : 
VDSM 版 本 : 


SPICE 版 本 : 
GlusterFS 版 本 : 


RHEL - 6 - 6.el6.centos.12 
2.6.32 - 504.8.1.el6.x86 6 
0.12.1.2- 2.448.el6 6 
libvirt-0.10.2-46.el6 6.3 
vdsm-4.16.10-8.gitc93792 
0.12.4 - 11.el6 

[N/A] 


SPM 优先 级 : 
活动 的 虚拟 机 : 
逻辑 CPU 内 核 : 


引导 时 间 : 
Hosted Engine HA: 


iSCSI 初始 器 的 名 称 : 


Kdump 状态 : 


0 
24 


2015-2 月 -10, 13:32 

[N/A] 
iqn.1994-05.com.redhat: 1f 
禁用 


图 13-6 oVirt 宿 主机 管理 界面 


如 图 13-7 所 示 ，oVirt 对 虚拟 机 创建 是 向 导 式 的 ， 也 可 以 将 虚拟 机 转换 成 模板 ， 通 过 模块 快速 复制 。 





物理 内 存 : 
交换 空间 大 小 : 
共享 内 存 - 


用 于 调度 新 虚拟 机 的 最 大 


内 存 页 面 共 享 : 
自动 的 太 型 页 
SELinux 模式 : 


Live 快照 的 支持 : 


oVirt 
运行 在 : 集群 里 的 任 问 主机 
自 定义 属性 : Not-Configured 
集群 兼容 性 版 本 : 35 
VM Id: 42f851ac-f4e7-4136-a6df-f0c18357* 





12030 MB Z £i, 2286 MB 
6015 MB 总 数 , 0 MB 已 使 
0% 
空闲 内 存 : 23674 MB 
不 活动 的 
总 是 
Ag (Permissive) 
活动 的 





基于 模板 
模板 子 版 本 
操作 系统 
Es 


| 


< 


随机 数 生成 器 
AELA 











m 





O Stateless [ 以 暂停 模式 启动 O MRRP 


选择 一 个 vNIC 配置 档案 来 实例 化 VM 了 网络 接口 。 
nic1 ovirtmgmt/ovirtmgmt 了 | 








图 13-7 oVirt 虚 拟 机 创建 界面 


134 ”WebVirtMgr 管 理 平台 介绍 








WebVirtMgr 是 近 几 年 来 发 展 较 快 、 比 较 活跃 、 非 常 清新 的 一 个 KVM 管 理 平台 。 一 看 名 字 就 知道 ， 其 定位 非常 清晰 ， 就 是 要 将 VirtManager 页 面 化 。 














1.WebVirtMgr 的 主要 功能 


WebVirtMgr 几 平 是 纯 Python 开 发 的 ， 前 端 是 基于 Python 的 Django， 后 端 是 基于 Libvirt 的 Python 接 口 。 风 格 也 是 Python 的 风格 ,特点 如 下 : 








“ 容易 使 用 。 


“ 基于 libvirt 的 连接 。 


- 虚拟 机 生命 周期 管理 。 


在 宿主 机 管理 方面 支持 以 下 功能 : 





“CPU 利用 率 。 





.内存 利 用 率 。 


“ 网络 资源 池 管 理 。 


“ 存储 资源 池 管 理 。 


' 虚拟 机 镜像 。 


| 虚拟 机 克隆 。 


' 快照 管理 。 


: 日志 管理 。 


在 虚拟 机 管理 方面 支持 以 下 功能 : 


“CPU 利用 率 。 


. 内 存 利用 率 。 


XL AA 
“ 安装 虚拟 机 。 

“VNC 网 页 连接 。 

A ERR 

2.WebVirtM gr 的 搭建 方法 介绍 

WebVirtM gr 搭建 非常 简单 ， 主 要 步骤 如 下 : 

(1) 配置 解析 主机 名 

修改 所 有 节点 的 /etc/hosts 文 件 ， 使 所 有 节点 之 间 能 够 通过 DNS 解析 主机 名 。 
(2) 客户 端 安装 

1) 安装 KVM 和 Libvirt 组 件 ( 略 ) 。 


2) Libvirtd 服 务 监 听 配 置 。 修 改 /etc/sysconfig/libvirtd 文 件 ， 去 掉 下 面 一 行 注释 ， 使 Libvirtqd 服 务 处 于 监听 状态 : 





vim /etc/sysconfig/libvirtd 
LIBVIRTD ARGS-"--listen" 





3) 配置 Libvirt 服 务 。 配 置 Libvirt 服 务 ， 人 允许 通过 TCP 方 式 通 信 ， 修 改 /etc/libvirt/libvirtd.conf: 





# 友 许 tcP 监 听 

listen tcp = 1 

# 开 放 tcp 端 口 

tcp port = "16509" 

# 监 听 地 址 修改 为 0.0.0.0 
listen addr = "0.0.0.0" 
# 配 置 tcp 通 过 sasl 认 证 
auth tcp = sasl 





启动 服务 : 





service libvirtd start 





4) 创建 libvirt 管 理 用 户 。 





saslpasswd2 -a libvirt virtadmin 

















可 以 使 用 sasldblistuser2 命 令 查看 创建 了 哪些 用 户 : 











sasldblistusers2 -f /etc/libvirt/passwd.db 
virtadmin(webvirt: userPassword 





如 果 需 要 禁止 用 户 ， 使 用 如 下 命令 : 





saslpasswd2 -a libvirt -d virtadmin 





(3) 服务 器 端 安 装 


1) 安装 基础 组 件 。 





rpm -ivh http:// dl.fedoraproject.org/pub/epel/6/1386/epel-release-6-8.noarch.rpm 
yum -y install git python-pip libvirt-python libxml2-python python-websockify 
supervisor nginx 





2) WebVirtMgr 安 装 及 初始 化 配置 。 通 过 git 克 隆 WebVirtMgr 代 码 ， 并 安装 需要 的 Python 组 件 : 





git clone git:// github.com/retspen/webvirtmgr.git 
cd webvirtmgr 
pip install -r requirements.txt # or python-pip (RedHat, Fedora, CentOS, OpenSuse) 





初始 化 数据 库 : 





./manage.py syncdb 
./manage.py collectstatic 





添加 超级 管理 员 ， 运 行 如 下 命令 ， 并 按照 提示 添加 管理 员 账 号 。 





./manage.py createsuperuser 





将 WebVirtMgr 复 制 到 系统 默认 的 Web 服 务 目录 : 





cp -r webvirtmgr/ /var/www/ 





3) 配置 nginx。 添 加 nginx 配 置 文件 ， 内 容 如 下 : 





vim /etc/nginx/conf.d/webvirtmgr.conf 


server ( 
listen 80 default server; 
server name $hostname; 
faccess log /var/log/nginx/webvirtmgr access log; 
location /static/ { 
root /var/www/webvirtmgr/webvirtmgr; 4 or /srv instead of /var 
expires max; 


location / ( 
proxy pass http:// 127.0.0.1:8000; 
proxy set header X-Real-IP $remote addr; 
proxy set header X-Forwarded-for $proxy add x forwarded for; 
proxy set header Host $host:$server port; 
proxy set header X-Forwarded-Proto $remote addr; 
proxy connect timeout 600; 
proxy read timeout 600; 
proxy send timeout 600; 
client max body size 1024M; # Set higher depending on your needs 





修改 nginx 配 置 文件 /etc/nginx/nginx.conf， 将 default.conf 行 注释 掉 : 





# The default server is in conf.d/default.conf 





修改 default.conf 文 件 名 : 





mv default.conf default.conf.bak 





启动 nginx 服 务 : 





/etc/init.d/nginx restart 
chkconfig supervisord on 




















设置 WebVirtMgr 文 件 夹 nginx 用 户 权 限 : 





chown -R nginx:nginx /var/www/webvirtmgr 





4) 配置 超级 引擎 。 编 辑 超级 引擎 ， 增 加 以 下 内 容 : 





/etc/supervisord.conf 

[program:webvirtmgr] 

command-/usr/bin/python /var/www/webvirtmgr/manage.py run gunicorn -c /var/www/ 
webvirtmgr/conf/gunicorn.conf.py 

directory-/var/www/webvirtmgr 

autostart-true 

autorestart-true 

logfile-/var/log/supervisor/webvirtmgr.log 

log stderr-true 

user-nginx 

[program:webvirtmgri-console] 

command-/usr/bin/python /var/www/webvirtmgr/console/webvirtmgr-console 
directory-/var/www/webvirtmgr 

autostart-true 

autorestart-true 

stdout logfile-/var/log/supervisor/webvirtmgr-console.log 

redirect stderr-true 

user-nginx 





配置 完成 ， 可 以 通过 浏览 器 访问 测试 了 。 


(4) WebVirtMgr 升 级 








因为 WebVirtMgr 处 于 快速 发 展期 ， 所 以 ， 经 常 有 新 版 本 发 布 ， 需 要 升级 ， 具 体 如 下 : 








cd /var/www/webvirtmgr 

git pull 

./manage.py collectstatic 
service supervisord restart 





(5) 排 错 方法 


如 果 遇 到 问题 ， 需 要 排 错 ， 可 以 以 debug 模 式 ;: 





./manage.py runserver 0:8000 








然后 用 浏览 器 访问 服务 器 的 8000 端 














http:// x.x.x.x:8000 





在 服务 端 有 非常 详细 的 输出 信息 。 


13.5 ”如 何 选择 管理 平台 


随 着 虚拟 机 的 数量 增加 ， 面 临 的 一 个 问题 就 是 如 何 管理 虚拟 机 。 这 时 往往 希望 有 一 款 管理 工具 ， 能 够 完成 以 下 任务 : 





: 能 快速 创建 一 台 或 者 一 批 虚拟 机 。 
C 能 完成 虚拟 机 的 创建 、 维 护 、 销 毁 整 个 生命 周期 的 管理 。 
“能够 和 其 他 的 运 维系 统 交互 ， 为 其 他 的 运 维系 统 提供 虚拟 化 服务 ， 提 高 整体 的 自动 化 运 维 水 平 。 


运 维 工程 师 从 对 KVM 的 熟悉 到 对 虚拟 机 的 管理 ， 必 然 经 过 以 下 过 程 : 


“ 管理 单 台 虚 拟 机 。 

“ 通过 Virt-Managet 或 者 Libvirt 管 理 多 台 宿 主机 。 

' 通过 脚本 批量 的 创建 、 管 理 虚 拟 机 、 宿 主机 。 

“ 通过 开源 或 者 自 研 的 云 管 理 平台 完成 虚拟 机 管理 。 


“ 整合 云 管 理 平台 和 其 他 运 维系 统 。 


虚拟 机 数量 少 的 时 候 ， 往 往 是 通过 virsh 或 者 Virt-Manager 管 理 。virsh、Virt-Manager 都 是 手动 管理 方式 ， 所 以 ， 一 次 只 能 管理 一 台 虚 拟 机 ， 要 批量 管理 就 需要 写 脚本 ， 或 者 和 自动 化 的 管理 工具 结 


(比如 Puppet) 。 

















虚拟 机 数量 再 增加 ， 或 者 频繁 变更 ， 或 者 希望 把 虚拟 机 的 申请 、 维 护 以 服务 的 方式 提供 给 使 用 方 ， 这 时 候 就 需要 管理 平台 。 
































从 第 11 章 到 13 章 ， 为 读者 介绍 了 主流 的 开源 管理 平台 ， 那 么 在 实际 的 生产 环境 中 ， 如 何 选 择 管理 平台 呢 ? 管理 平台 的 选择 ， 主 要 取决 于 以 下 几 个 因素 : 
“ 宿主 机 、 虚 拟 机 规模 。 

“ 易 用 性 。 

“ 使 用 者 的 喜好 。 

表 13-1 所 示 为 对 几 款 管理 平台 的 比较 。 


表 13-1 常见 KVM 管 理 平台 简单 比较 


易 用 性 
(满分 5 分 ) 


A TE 
稳定 性 支持 虚拟 机 规模 


虚报 机 (满分 5 分 ) 





Convirt 4.5 AT 
WebVritMer Hc 


笔者 对 管理 平台 选择 的 建议 如 下 : 
- 规模 比较 小 ， 熟 悉 Python， 和 希望 做 一 些 定制 ， 建 议 选择 WebVirtMgr。 
: 规模 中 等 ， 完 全 是 企业 内 部 的 私有 云 ， 建 议 使 用 DpenNebula、CloudStack、ConVirt 开 源 版 、oVirt 这 样 的 管理 平台 。 


“ 规模 非常 大 ， 有 足够 的 运 维和 开发 ， 建 议 基 于 OpenStack 定 制 。 


13.6 ”本章 小 结 



































n> 





社区 活跃 性 
(满分 5 分 ) 


un 


W 





本 章 介绍 了 ConVirt、Cloudstack、oVirt 管 理 平台 的 理念 、 
WebVirtMgr， 简 单 易 用 ， 适 用 于 规模 比较 小 的 场景 。 








下 一 篇 将 介绍 虚拟 化 项 目 实施 ， 是 本 书 的 重点 内 容 之 一 。 





第 四 篇 KVM 虚 拟 化 项 目 实施 
业务 性 能 评估 与 压力 模型 建立 

宿主 机 选 型 与 基础 性 能 测试 

虚拟 机 镜像 制作 、 配 置 与 测试 

单机 虚拟 化 技术 与 生产 环境 实践 

KVM 虚 拟 化 集群 技术 与 应 用 场景 

业务 迁移 到 虚拟 化 环境 流程 

宿主 机 自动 化 运 维 管理 


虚拟 化 监控 、 报 警 与 应 急 响应 方案 


架构 ， 目 的 是 让 读者 对 这 些 相 对 小 众 化 (主要 是 和 Openstack 对 比 ) 的 开源 平台 有 初步 的 了 解 。 另 外 ， 介 绍 了 一 个 非常 清新 的 管理 平台 


第 14 章 ”业务 性 能 评估 与 压力 模型 建立 


从 本 章 开 始 ， 将 正式 进入 第 四 篇 一 一 KVM 虚 拟 化 项 目 实 施 。 作 为 开篇 的 第 一 章 ， 将 从 虚拟 化 项 目 实施 的 最 开始 阶段 ， 项 目 接 入 这 块 来 介绍 如 何 评估 一 个 业务 是 否 适合 接 入 虚拟 化 ， 进 行 必 要 的 性 能 数据 


采集 和 分 析 ， 建 立 适 当 的 压力 模型 ， 最 终 决 定 一 个 业务 是 否 能 接 入 虚拟 化 。 








虽然 虚拟 化 技术 在 进 过 了 这 么 多 年 的 发 


性 能 分 析 的 目的 ， 是 要 把 一 些 不 适合 


14.1 


对 于 业务 服务 器 性 能 的 采集 ， 必 须 遵循 两 点 : 第 一 ， 性 能 数 














Linux 系 统 性 能 数据 采集 原则 与 方法 








作 需 


1.Linux 系 统 性 能 采集 原则 


首先 ， 对 于 Linux 系 统 性 能 采集 ， 其 结果 必须 包含 4 个 部 分 的 数据 : @CPU 性 能 ; @ 磁 盘 /O 性 能 ; @@ 网 络 发 包 率 及 知 叶 





最 后 ， 操 作 要 尽 可 能 简 和 








e 











2.8 


Linux 系 统 性 能 查看 的 命令 有 很 多 ， 而 且 每 


的 Linux 系 统 性 能 查看 命令 介绍 








力 模型 建立 的 依据 。 


(1) 


CPU 性 能 采集 





业务 方 来 完成 ， 过 于 复杂 的 操作 ， 很 容易 造成 性 能 数 


展 之 后 的 今天 ， 无 论 从 性 能 、 
在 接 入 之 前 ， 都 必须 经 过 非常 详细 的 性 能 评估 ， 才 能 保证 业务 后 续 在 虚拟 化 环境 中 流畅 运行 。 


虚拟 化 的 业务 排除 出 去 ， 避 免 





稳定 性 、 可 靠 性 方面 都 得 到 了 业界 的 肯定 ， 但 是 不 可 和 否认， 虚拟 化 技术 不 是 万 能 的 ， 并 不 是 所 有 的 业务 都 可 以 接 入 虚拟 化 。 所 以 ， 























AA: 
个 命令 


居 采 集 的 方法 尽 可 能 简 和 





B. 








其 次 ， 采 集 过 程 要 尽 可 能 对 系统 本 身 无 压力 ， 所 以 ， 最 好 使 


ER， 一 般 来 说 ， 在 Linux 系 统 下 ， 使 F 


都 很 强大 ， 






































Linux 系 统 自 带 的 命令 。 








， 尽 量 避免 在 业务 服务 器 内 安装 程序 ， 第 二 ， 操 作 步 又 和 方法 必须 简练 ， 
居 无 法 采集 。 本 节 将 介绍 Linux 系 统 下 ， 如 何 采 集 Linux 性 能 数据 。 








Shell 脚 本 是 一 个 不 错 的 选择 。 因 为 简单 的 Shell 脚 本 兼容 性 非常 好 ，Linux 都 带 Shell 








性 能 ; @@ 内 存 及 swap 使 








在 命令 后 面 带 不 同 的 参数 ， 可 以 查看 到 不 同 项 目的 性 能 ， 下 面 介 绍 几 个 常 























情况 。 





AITINA. 


的 查看 服务 器 性 能 的 命令 ， 这 些 命 


因为 盲目 接 入 而 导致 业务 受 影 响 。 本 章 围绕 业务 性 能 采集 、 评 估 、 性 能 分 析 、 压 力 模型 建立 等 方面 进行 详细 的 介绍 。 


因为 大 多 数 情况 下 ， 性 能 采集 的 工 


令 采集 到 的 数据 ， 可 以 作为 压 





sar -P ALL 2 10 





命令 含义 : 每 隔 2 秒 显示 采集 一 次 ， 


“ Wuser: 显示 在 用 户 级 别 应 用 运行 使 用 CPU 总 时 间 的 百分比 。 





“ Venice: 显示 在 用 户 级 别 ， 用 于 nice 操 作 ， 所 占用 CPU 总 时 间 的 百分比 。 


* system: 在 核心 级 别 (Kernel) 运行 所 使 用 CPU 总 时 间 的 百分比 。 


“ %iowait: 显示 用 于 等 待 IO 操作 占用 CPU 总 时 间 的 百分比 。 


“ %steal: 管理 程序 (Hypervisor) 为 另 一 个 虚拟 进程 提供 服务 而 等 待 虚拟 CPU 的 百分比 。 


- idle: 显示 CPU 空闲 时 间 占 用 CPU 总 时 间 的 百分比 。 











一 共 采 集 10 次 CPU 所 有 核 的 性 能 。 其 中 ，ALL 可 以 用 任意 和 核心 ID 来 替换 ， 以 获取 这 个 核 的 性 能 信息 。 输 出 的 最 后 有 一 个 汇总 的 平均 性 能 信息 。 





[root@localhost ~]# sar -P ALL 2 10 
«-- 此 处 省 略 10 次 cpu 性 能 输出 --> 


Average: 


CPU S$user 


Average: all 8.96 
Average: 0 24.88 
Average: 1 17.59 
Average: 2 15.65 
Average: 3 13.17 
Average: 4 10.32 
Average: 5 8.97 
Average: 6 22.36 
Average: T 12.75 


nice 


ooooooooo 


system 


ENNNENNNE 


Siowait 


ooooooooo 


%steal 


ooooooooo 








(2) 网 卡 性 能 采集 


网 卡 性 能 采集 命令 : 





sar -n DEV 2 5 





命令 含义 : 
* rxpck/s: 
"txpck/s: 
* rxbyt/s: 
* txbyt/s: 
* rxcmp/s: 


“ txcmp/s: 


每 秒 接收 的 数据 包 。 


每 秒 发 送 的 数据 包 。 


每 秒 接收 的 字 节 数 。 


每 秒 发 送 的 字 节 数 。 


每 秒 接收 的 压缩 数据 包 。 


每 秒 发 送 的 压缩 数据 包 。 


每 隔 2 秒 一 次 ,采集 5 次 所 有 网 卡 的 性 能 数据 。 


“ Ixmcst/s: 每 秒 接收 的 多 播 数据 包 。 





[root(localhost ~]# sar -n DEV 2 10 
«-- 此 处 省 略 10 次 网 卡 性 能 输出 -> 
Average: IFACE rxpck/s txpck/s  rxkB/s  txkB/s rxcmp/s txcmp/s rxmcst/s 


Average: lo 1.07 1:07 0.23 0.23 0.00 0.00 0.00 
Average: eth0 315.81 324.07 37.90 39.54 0.00 0.00 0.31 
Average: ethl 0.31 0.00 0.11 0.00 0.00 0.00 0.15 





(3) 磁盘 性 能 采集 


磁盘 性 能 采集 命令 : 





iostat -x -d -k 2 10 





各 命令 的 含义 如 下 。 

xR: 用 于 显示 和 I/O 相 关 的 扩展 数据 。 

“ -d 选 项 : 显示 设备 (磁盘 ) 使 用 状态 。 

D-kiks4: 表示 将 Block 为 单位 的 列 使 用 KB 为 单位 。 
(21 表示 数据 采集 每 隔 2 秒 一 次 ; 10: 表示 采集 10 次 。 


“ rrqm/s: 每 秒 这 个 设备 相关 的 读 取 请 求 有 多 少 被 Merge (合并 ) 了 ( 当 系 统 调用 需要 读 取 数据 时 ， 虚 拟 文件 系统 将 请 求 发 到 各 个 文件 系统 ， 如 果 文 件 系 统 发 现 不 同 的 读 取 请 求 读 取 的 是 相同 块 的 数据 ， 
文件 系统 会 将 这 个 请 求 合 并 ) 。 


| wrqm/s: 每 秒 这 个 设备 相关 的 写 入 请 求 有 多 少 被 合并 了 。 

“1/s: 每 秒 读 请 求 。 

w/s: 每 秒 写 请 求 。 

“KB/s: 每 秒 从 设备 读 入 的 数据 量 。 

:WwWKB/s: 每 秒 向 设备 写 入 的 数据 量 。 

.avgrq-sz: 平均 请 求 扇 区 的 大 小 avgqursz 是 平均 请 求 队列 的 长 度 。 

“ await; 每 一 个 I/O 请 求 的 处 理 的 平均 时 间 (单位 是 毫秒 ) 。 
“svctm; 表示 平均 每 次 设备 I/O 操 作 的 服务 时 间 〈 以 毫秒 为 单位 ) 。 


outil: 在 统计 时 间 内 所 有 处 理 I/O 时 间 ， 除 以 总 共 统 计时 间 。 





[rootégcloud-bjgm-c1-132 ~]# iostat -xdk 2 10 
Linux 2.6.32-431.29.2.e616.x86 64 (gcloud-bjgm-c1-132) 01/27/2015 
x86 64. (40 CPU) 
«-- 此 处 省 略 9 次 磁盘 性 能 输出 --> 
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await 
svctm $util 


sda 0.00 0.00 0.00 0.00 0.01 0.00 8.01 0.00 
0.26 0.26 0.00 
sdb 0.00 1.82 3.04 27.99 85.11. 3530.57 39.69 0.08 
2.54 0.30 0.92 
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 8.00 0.00 
1.10 1.09 0.00 
dm-1 0.00 0.00 0.01 3:37 0.13 13.75 8.22 0.01 


2.29 0.14 0.05 





(4) 内 存 性 能 采集 


内 存 性 能 采集 命令 : 





sar -r 2 10 





命令 含义 : -输出 内 存 和 交换 空间 的 统计 信息 ，2 表 示 采 集 频 率 ，10 表 示 采 集 次 数 。 
下 面 列举 3 次 输出 的 结果 并 说 明 各 项 的 意义 。 


* kbmemfree: 这 项 值 和 free 命 令 中 的 frfee 值 基本 一 致 ， 它 不 包括 buffer 和 cache 的 空间 。 


x 


bmemused: 这 项 值 和 free 命 令 中 的 used 值 基本 一 致 ， 所 以 ， 它 包括 buffer 和 cache 的 空间 。 


< %memused: 这 个 值 是 kbmemused 和 内 存 总 量 (不 包括 swap) 的 一 个 百分比 。 


fan 


bbuffers 和 kbcached: 这 两 个 值 就 是 free 命 令 中 的 buffer 和 cache。 





fan 


bcommit: 保证 当前 系统 所 需要 的 内 存 ， 即 为 了 确保 不 溢出 而 需要 的 内 存 (RAM+swap) o 


< %commit: 这 个 值 是 kbcommit 与 内 存 总 量 ( 包 括 swap) 的 一 个 百分比 。 





[root@gcloud-bjgm-cl-132 ~]# sar -r 2 10 
Linux 2.6.32-431.29.2.e616.x86 64 (gcloud-bjgm-c1-132) 01/27/2015 


x86 64 (40 CPU) 

08:17:33 PM kbmemfree kbmemused  $memused kbbuffers  kbcached kbcommit ^ $commit 
08:17:35 PM 52405092 212088412 80.19 192340 124431852 107663704 39.45 
08:17:37 PM 52405164 212088340 80.19 192340 124431852 107663704 39.45 


08:17:39 PM 52405180 212088324 80.19 192340 124431852 107673948 39.46 





3. 性 能 采集 脚本 示例 

















上 一 节 介绍 的 4 个 命令 ， 分 别 
节 主 要 展示 一 个 在 Linux 系 统 中 上 























于 采集 CPU、 网 卡 、 磁 盘 、 内 存 4 个 方面 的 性 能 数据 ， 其 实 还 有 很 多 类 似 的 命令 可 以 用 于 采集 这 些 信息 ， 只 是 笔者 感觉 这 4 个 命令 好 用 一 点 ， 所 以 ， 举 了 这 几 个 命令 。 本 
于 采集 服务 器 性 能 数据 的 脚本 ， 一 般 情况 下 ， 在 服务 器 负载 最 高 的 时 间 点 ， 通 过 定义 crontab 任 务 ， 运 行 此 脚本 可 以 采集 该 时 段 的 服务 器 负载 ， 脚 本 内 容 如 下 : 























#!/bin/bash 
#Default frequency 
# STIMES x $INTERVAL = performance collection long 







































#eg: 
# TIMES=180 , INTERVAL-10 collection long is 0.5h 
TIMES-3600 // 此 处 定义 采集 的 次 数 
INTERVAL-2 // 此 处 定义 采集 频率 
PWD-'pwd^ 
TIME-'date "+%F %H:%M:%S"` 
TAR=`whereis tar|awk -F ":" '{print $2)'|awk '{print $1}'` 
SAR=`whereis sar|awk -F ":" '{print $2)'|awk '(print $1)'^ 
IOSTAT-'whereis iostat|awk -F ":" '(print $2)'|awk '(print $1)'^ 
SysInfo(){ // 此 函数 内 容 ， 用 于 采集 服务 器 的 一 些 基本 信息 ， 诸 如 硬盘 大 小 、 分 区 、 网 卡 信 : 
echo "sysip : $SYSIP"|tee $PWD/SSYSIP/sysinfo 
echo "starttime : $TIME" |tee -a SPWD/SSYSIP/sysinfo 
/sbin/ifconfig »»$PWD/S$SYSIP/sysinfo 
echo "=====-=-==-=-----====--=-===========" »»SPWD/SSYSIP/sysinfo 
/usr/sbin/dm 
echo "一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 =-"，>>S$PND/S$SYSITP/sysinfo 
/bin/cat /proc/cpuinfo >> $PWD/SSYSIP/sysinfo 
echo "— " »2$PWD/SSYSIP/sysinfo 
/ sbin/fdi 
echo " »»$PWD/SSYSIP/sysinfo 
/bin/d: 
echo "— 
/usr/bin/free -m >> $PWD/SSYSIP/sysinfo 
echo "一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 = 一 ='"，>>$PND/S$SYSITP/sysinfo 
echo "" 
} 
CheckEnv () { 


// 此 函数 用 于 检查 服务 器 环境 获取 服务 器 ITP， 判 断 性 能 采集 工具 是 否 安装 ， 如 果 未 安装 会 自动 安装 
PUB IP-'/sbin/ifconfig |grep "inet addr" | awk -F: '(print $2)'| awk 
'(print $1}' |grep -v "172\.\110\.\1127\.\1192\."]sed -n 1p^ 
PRI IP-'/sbin/ifconfig |grep "inet addr" | awk -F: '{print $2)'| awk 
'{print $1}' |grep "10NV.NV|127N. NV] 192N." [sed -n 1p^ 
if [ " $PUB IP" == "" ];then 

SYSIP-SPRI IP 
else 于 
SYSIP-SPUB IP 
fi i 
if [ -d SPWD/SSYSIP ];then 
rm -rf SPWD/SSYSIP 
fi 
mkdir -p $PWD/S$SYSIP 
if ! grep iostat /usr/bin/iostat ;then 
«-- 检查 系统 中 是 否 有 iostat 命 令 ， 如 果 没有 ， 则 安装 sysstat 包 -- > 
yum -y install sysstat 
fi 


} 

GetPerf(Q ( // 此 函数 是 采集 性 能 的 关键 ， 用 了 4 个 命令 来 采集 服务 器 性 能 
CPUUSAGE-"SPWD/SSYSIP/cpuusage.1og" 
MEMUSAGE-"$ PWD/S$SYSIP/memusage.log" 
DISKUSAGE-"SPWD/SSYSIP/diskusage.log" 
NETWORK-"SPWD/SSYSIP/network.log" 
$SAR -P ALL SINTERVAL $TIMES»» $CPUUSAGE & 
SIOSTAT -dkx SINTERVAL $TIMES»» $DISKUSAGE & 
SSAR -n DEV SINTERVAL $TIMES»» SNETWORK & 
$SAR -r SINTERVAL $TIMES»» $MEMUSAGE & 
for ((i=0;i<$TIMES;i++)) // 这 个 循环 ， 定 义 等 待 时 间 ， 也 就 是 采集 时 长 





sleep SINTERVAL 


if [ -d SPWD/SSYSIP ];then // 打包 采集 结果 。 
cd $PWD 
rm -f $SYSIP.tar.gz 
tar zcvf $SYSIP.tar.gz $SYSIP 
fi 
curl -A "SNDA-PREF-COLLECTOR" -F "result-8$SYSIP.tar.gz" "192.168.25.100:37011/ 
recv-pref.phpos-linux" // 自动 上 传 采 集 到 的 结果 























从 脚本 功能 上 看 ， 做 了 几 件 事 : 

第 一 ， 获 取 服务 器 基本 信息 ; 

第 二 ， 检 查 服务 器 环境 ， 确 保 这 几 个 采集 性 能 的 命令 能 运行 ; 
第 三 ， 采 集 服务 器 性 能 ; 

第 四 ， 打 包 上 传 性 能 数据 。 


Q.. 


脚本 最 后 一 行 的 作用 是 将 采集 到 的 结果 上 传 到 性 能 分 析 的 服务 器 ， 如 果 只 是 采集 性 能 数据 ， 这 一 行 可 以 省 略 。 


14.2 Linux 系 统 压力 模型 建立 




















压力 模型 的 建立 ， 可 以 很 直 
的 负载 情况 。 


观 地 














包含 4 个 
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反映 整个 系统 的 负载 情况 ， 压 力 模 型 中 元 素 : CPU 负载 、 磁 盘 负载 、 内 存 占有 








、 网 络 负载 。 下 面 就 将 从 每 个 元 素来 分 析 ， 最 终 可 以 得 到 一 个 系统 最 直观 




















1. 分 析 性 能 采集 数据 





全 得 


14.1.3 节 中 介绍 了 Linux 性 能 数据 采集 脚本 ， 使 用 该 脚本 完成 性 能 采集 之 后 ， 会 得 到 4 个 元 素 的 性 能 数据 文件 一 一 CPU 性 能 数据 : cpuusage.log; 磁盘 性 能 数据 : diskusage.log; 网 卡 性 能 数据 : 
network.log; 内 存 性 能 数据 : memusage.log。 每 个 性 能 数据 文件 的 格式 ， 在 14.1.2 节 中 已 经 详细 介绍 过 了 ， 这 里 不 再 重复 ， 只 说 明 每 个 元 素 中 ， 需 要 重点 关注 















































vr 
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cpuusage.log 文 件 中 采集 了 以 下 几 项 参数 : 


Suser $nice system %iowait %steal sidle 








一 般 情况 下 根据 这 些 项 的 值 可 以 得 到 一 些 信息 。 例 如 ， 如 果 %iowait 的 值 过 高 ， 则 可 能 硬盘 存在 VO 瓶 颈 ; 如 果 %idle 的 值 高 但 系统 响应 慢 时 ， 则 可 能 CPU 等 待 分 配 内 存 ， 可 以 尝试 添加 内 存 ; 如 果 %idle 
的 值 持续 低 于 10， 则 系统 的 CPU 处 理 能 力 相 对 较 低 ， 说 明 系统 中 最 需要 解决 的 资源 是 CPU。 


diskusage.log 文 件 中 采集 了 以 下 几 项 参数 : 





rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm $util 








Ms 和 w/s 就 是 通常 说 的 磁盘 IOPS， 包 括 读 IOPS 和 写 IOPS， 是 衡量 磁盘 性 能 和 压力 非常 重要 的 指标 。 








纱 B/s 和 wkB/s 表 示 磁 盘 的 吞吐 ， 每 秒 能 写 或 者 能 读 取 多 少数 据 ， 对 于 顺序 读 / 写 的 应 用 ， 这 项 参数 非常 重要 。 


























await 和 svctm 是 一 对 相对 的 数据 ，await 可 以 理解 为 MO 的 处 理 时 间 ， 包 括 队列 时 间 和 操作 时 间 ， 一 般 系 统 IO 的 处 理 时 间 应 该 低 于 5ms， 一 旦 超过 20ms， 服 务 器 会 感觉 到 卡 。syctm 表 示 设 备 MO 操 作 
的 服务 时 间 ， 一 般 情 况 下 ，await 大 于 svctm， 它 们 的 差 值 越 小 ， 则 说 明 队列 时 间 越 短 ， 性 能 越 好 。 


























%util 项 是 表示 磁盘 利用 率 ， 值 越 小 磁盘 越 空 亲 ， 当 这 个 值 持续 大 于 90% 时 ， 说 明 磁 盘 利 用 率 很 高 ， 需 要 引起 重视 。 





























network.log 文 件 中 采集 了 以 下 几 项 参数 : 





rxpck/s txpck/s  rxkB/s  txkB/s rxcmp/s txcmp/s rxmcst/s 





rxpck/s 和 txpck/s 分 别 表示 每 秒 发 送 和 接收 数据 包 的 多 少 ， 这 是 衡量 一 个 网 卡 性 能 的 重要 指标 ， 如 果 这 个 值 大 于 10 万 ， 说 明 网 卡 压 力 很 大 。rxkB/s 和 txkB/s 表 示 网 卡 的 吞吐 性 能 。 一 般 换 算 一 下 ， 如 果 
接近 干 兆 或 者 万 兆 的 上 限 ， 说 明 服 务 器 存在 网 卡 吞 吐 压力 。 








memusage.log 文 件 中 采集 了 以 下 几 项 参数 : 





kbmemfree kbmemused  $memused kbbuffers  kbcached kbcommit ^ $commit 


























通过 简单 的 memused-kbbuffers-kbcached 得 到 大 致 的 内 存 实际 使 用 量 ， 还 有 一 个 需要 注意 的 项 是 %commit， 这 是 kbcommit 与 内 存 总 量 (包括 swap) 的 一 个 百分比 ， 这 个 值 越 小 说 明 服 务 器 内 存 越 
充足 ， 在 接 入 虚拟 化 时 ， 可 以 适当 减少 内 存 分 配 。 














2.gnuplot 介 绍 




















网 














形 。 





[R] 


的 工具 ， 功 能 非常 强大 ， 可 以 画 出 复杂 的 三 维 图 形 ， 使 用 方法 比较 简单 ， 只 需要 使 用 gnuplot 命 令 带 上 简单 的 参数 就 能 画 出 














gnuplot 是 一 个 能 通过 命令 行 的 交互 ， 实 现 绘 | 


[ 





















































在 Ubuntu 系统 中 ， 可 以 直接 使 用 sudo apt-get install gnuplot 安 装 ，CentOS 系 统 可 以 下 载 源码 包 编译 安装 ， 使 用 ./configure; make; make install; 即 可 。 简 单 举例 说 明 一 下 。 











/usr/local/bin/gnuplot --persist ««EOF 


set term png size 800,600 // 定义 输出 图 像 大 小 及 格式 
set output "DiskIOPSPerformance.png" // 输出 文件 名 称 

set key title "Disk IOPS" // 图 像 标题 

set key box 3 // 设置 图 像 外 边框 

set key below 

<-- 设置 图 注 位 置 ， 可 选 (lmargin/rmargin/tmargin/bmargin(below)) --» 
set ylabel "IOPS" // 定义 y 轴 单位 

plot // 绘图 内 容 区 域 


"sda iops.txt" using 4 w 1 title "sda read IOPS", "sda iops.txt" using 5w 1 
title "sda write IOPS" 
EOF 








绘图 区 域 各 配置 参数 的 含义 如 下 : 























“ sda iops.xt: 是 画图 的 数据 文件 ， 每 个 数据 之 间 以 空格 或 者 tab 分 割 ， 文 件 的 内 容 如 下 。 








sda 0.00 549.00 1.00 235.00 42.00 2982.00 25.63 0.07 0.31 0.07 1.65 





- using4: 表示 使 用 第 四 列 的 数据 绘图 。 
- wl=with line: 表示 绘图 类 型 是 曲线 ， 如 果 定 义 wp， 则 表示 话 散 点 图 。 


- title"sda read IOPS": 表示 图 注 的 名 称 。 




















在 一 张 图 上 可 以 绘制 多 个 项 ， 上 述 实例 绘制 了 两 个 项 : sda read IOPS 和 sda write IOPS， 如 果 绘 制 多 个 ， 相 互 之 间 用 逗号 分 隔 。 








3. 利 用 gnuplot 展 示 系统 压力 























将 采集 到 的 服务 器 性 能 数据 通过 脚本 进行 处 理 ， 将 处 理 结果 交 给 gnuplot 进 行 展示 ， 通 过 图 表 的 形式 ， 可 以 直观 地 看 到 业务 服务 器 的 压力 情况 ， 由 于 脚本 匈 长 ， 所 以 将 脚本 分 享 在 笔者 的 博客 上 ， 并 生 
成 了 二 维 码 ， 链 接地 址 和 二 维 码 如 下 : 

















链接 地 址 : http://xiaoli110.blog.51cto.com/1724/1656450。 


二 维 码 : 








通过 分 析 脚 本 和 gnulot 配 合生 成 的 磁盘 IOPS 性 能 如 





到 14-1 所 示 。 





















































图 14-1 是 14.2.2 节 中 所 举 gnuplot 实 例 画 出 来 的 曲线 图 。 从 曲线 图 上 可 以 比较 直观 地 看 到 ， 写 的 |OPS 比 较 高 ， 最 大 在 6200 左 右 。 






































建立 Linux 压 力 模型 的 数据 基础 是 14.1.3 节 性 














展示 的 采集 脚本 取 到 的 性 能 数据 ， 主 要 以 CPU、 网 卡 、 磁 盘 三 个 压力 元 素 作为 对 象 ， 进 行 汇总 和 统计 。 





“CPU 元 素 : 主要 参考 参数 是 CPU%idle (空闲 时 间 ) ， 包 括 整 体 和 单 核 和 CPU 核 数 。 


AFAR: 主要 参考 参数 是 吞吐 量 和 发 包 率 。 


IOPS 





1000 





Disk IOPS | 
| sdareadIOPS ”一 一 一 sda write IOPS 


图 14-1 脚本 和 gnulot 配 合生 成 的 磁盘 IOPS 性 能 





“ 硬盘 元 素 : 主要 参考 参数 是 [OPS 和 %util (在 统计 时 间 内 所 有 处 理 I/O 时 间 ， 除 以 总 共 统计 时 间 ) 。 


对 于 虚拟 化 接 入 来 说 ， 压 力 模型 遵循 木 桶 效应 ， 即 宿主 机 的 最 大 虚拟 承载 能 力 ， 取 决 于 虚拟 机 单个 压力 元 素 负载 总 和 和。 由 此 很 容易 理解 ， 宿 主机 的 性 能 ， 在 整个 模型 起 到 决定 性 作用 。 但 是 ， 也 不 是 说 
将 一 台 宿 主机 各 元 素 的 性 能 配置 的 越 高 就 越 好 ， 因 为 对 于 虚拟 化 接 入 来 说 ， 性 能 只 写 一 方面 ， 稳 定性 和 故障 影响 方面 也 是 非常 重要 的 ， 但 是 谁 也 无 法 保证 服务 器 永远 不 宕 机 ， 对 于 宿主 机 宕 机 的 情况 ， 上 面 
的 所 有 虚拟 机 必定 会 受 影响 ,那么 ,合理 地 平衡 虚拟 化 ， 避 免 故 障 影响 范围 ， 是 非常 重要 的 。 














一 般 的 思维 方式 是 从 业务 方 出 发 ， 根 据 业务 的 压力 情况 ， 配 置 最 合理 的 宿主 机 来 承载 业务 的 虚拟 机 ， 当 然 这 个 思路 对 于 公有 云 来 说 就 不 适用 了 。 对 于 公有 云 来 说， 会 有 另外 一 套 逻 辑 来 处 理 虚 拟 机 分 布 
问题 。 


14.3 Windows 系 统 性 能 数据 采集 原则 与 方法 











Windows 系 统 性 能 采集 ， 大 致 可 以 参考 Linux 系 统 的 思路 ， 只 是 采集 方法 略 有 区 别 ， 在 Windows 系 统 中 ， 自 带 了 一 个 工具 ， 可 以 很 方便 、 直 观 地 采集 和 观察 服务 器 性 能 。 本 节 将 介绍 如 何在 Windows 系 
统 中 采集 服务 器 性 能 ， 以 及 使 用 哪个 工具 可 以 直观 地 分 析 性 能 数据 。 



































1.Windows 性 能 采集 原则 














对 于 Windows 系 统 来 说 ， 采 集 性 能 的 原则 包括 : 操作 简单 、 数 据 准确 、 低 消耗 、 通 用 性 强 。 操 作 简单 ， 这 一 点 还 是 最 重要 的 ， 需 要 尽 可 能 保证 不 会 因为 操作 失误 而 取 不 到 性 能 数据 。 一 般 通过 系统 自 带 
的 工具 或 接口 取 到 的 性 能 数据 都 比较 准确 ， 而 且 相对 来 说 自身 占用 资源 也 非常 少 。 通 用 性 强 也 是 非常 重要 的 ， 这 就 需要 在 创建 脚本 的 时 候 ， 考 虑 到 每 个 版 本 的 区 别 ， 对 于 Windows 服 务 器 版 系统 总 体 还 是 一 
脉 相 承 的 ， 所 以 ， 基 本 方法 都 是 一 致 的 ， 通 用 性 也 非常 强 。 












































2.logman 介 绍 





在 Windows 系 统 中 提供 了 一 个 名 为 Perfmon 的 工具 ， 用 它 可 以 查看 CPU 使 用 率 、 内 存 使 用 率 、 硬 盘 读 / 写 速度 、 网 络 速度 等 性 能 参数 。Perfmon 的 管理 方式 有 两 种 : 控制 台 和 命令 行 。 





(1) 控制 台 方式 


选择 “开始 ”一 “运行 ”命令 ， 在 弹出 的 对 话 框 中 输入 Perfmon.msc， 调 出 性 能 管理 的 控制 台 ， 如 图 14-2 所 示 。 在 性 能 监视 器 中 添加 需要 监控 的 项 ， 就 可 以 得 到 实时 的 性 能 曲线 。 








a — - m o cq, m o 


iW 
DREAM. 
S AT 2 


16:55:44 16:55:55 16:56:05 16:56:15 16:56:25 16:56:35 16:56:45 16:56:55 16:57:05 


比例 计数 器 


96 Processor Time 
96 User Time 

96 Privileged Time 
Interrupts/sec 

96 DPC Time 


图 14-2 ”Perftmon 界 面 


(2) 命令 行 方式 

















命令 方式 就 是 本 节 需 要 介绍 的 logman， 它 不 仅 能 够 在 命令 行 中 启动 和 停止 日 志 会 话 ， 而 且 能 够 从 命令 行 创建 新 的 日 志 会 话 。 通 过 使 用 ogman 可 以 很 方便 地 利用 Perfmon 工 具 采 集 Windows 系 统 的 性 


能 数据 。 


3.Windows 性 能 采集 脚本 实例 分 析 
Windows 性 能 采集 脚本 分 为 两 个 部 分 。 


第 一 部 分 是 过 滤 的 性 能 采集 项 ， 这 些 项 可 以 保存 在 一 个 txt 文 件 中 ， 如 permon.txt， 内 容 如 下 : 





MProcessor(*)NM$ Processor Time 
MMemoryNCommitted Bytes 

WNetwork Interface (*)\Packets Received/sec 
WNetwork Interface (*)\Packets Sent/sec 
WNetwork Interface (*)\Bytes Received/sec 
\Network Interface (*)\Bytes Sent/sec 
\Network Interface (*)\Output Queue Length 
MPhysicalDisk(*)N$ Idle Time 
\PhysicalDisk (*) \Avg. Disk sec/Read 
\PhysicalDisk(*)\Avg. Disk sec/Write 
\PhysicalDisk(*)\Avg. Disk Bytes/Read 
MPhysicalDisk(*)NAvg. Disk Bytes/Write 
MPhysicalDisk(*)NCurrent Disk Queue Length 
MPhysicalDisk(*)NVAvg. Disk Queue Length 
MPhysicalDisk(*)NDisk Reads/sec 
MPhysicalDisk(*)NDisk Writes/sec 
NLogicalDisk(*)M$ Free Space 
NLogicalDisk(*)MFree Megabytes 





间 、 


这 些 过 滤 项 依次 是 CPU 时 间 利用 率 、 内 存 使 用 量 、 网 卡 每 秒 收 包 数 、 网 卡 每 秒 发 包 数 、 网 卡 每 秒 接收 字 节 数 、 网 卡 每 秒 发 送 字 节 数 、 网 卡 队列 、 硬 盘 空闲 时 间 百 分 比 、 硬 盘 每 次 读 时 间 、 硬 盘 每 次 写 时 
硬盘 每 次 读 字 节 数 、 硬 盘 每 次 写字 节 数 、 当 前 磁盘 队列 长 度 、 平 均 磁盘 队列 长 度 、 每 秒 读 次 数 、 每 秒 写 次 数 、 逻 辑 磁 盘 剩余 空间 百分比 、 逻 辑 磁 盘 剩余 空间 。 


第 二 部 分 是 性 能 采集 脚本 ， 内 容 如 下 : 





Gecho off 

:begin 

cls 

md c: Vperflogs 
hi 


echo. 
echo 运行 此 脚本 ， 请 将 perfmon.txt 放 于 c:\ 下 

echo. 

set servername= 

set /p servername= 请 输入 服务 器 名 称 ， 项 目 - 角 色 -ip: 

set mstart= 

set /p mstart= 请 输入 任务 开始 时 间 ， 格 式 2010-12-25 20:59:30 

set mend- 

set /p mend- 请 输入 任务 结 站 束 时 间 ， 格 式 2010-12-25 21:59:30 

logman query | find "$servername$" && logman delete $servername$ && echo 计划 任务 

$servername% 已 存在 ， 将 执行 删除 操作 ， 并 重新 创建 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/0EBPS/Text/... 
logman create counter $servername$ -f csv -b $mstart$ -e $mend$ -o "c: 

perflogsM$servername$" -v mmddhhmm -cf c:WMperfmon.txt -si 00:30 

echo. 


echo .计划 任务 %servernames 已 创建 

echo 性 能 取样 时 间 是 30 秒 

echo 计划 任务 开始 时 间 是 %mstart 名 ， 结 束 时 间 是 Smendg 
echo 性 能 收集 日 志 输 出 路 径 是 c: NperflogsN 

echo. 

pause 

goto :eof 


外 二 


在 运行 这 个 脚本 时 ， 必 须 将 第 一 步 中 的 permon.txt 放 在 C: \ 下 。 


根据 脚本 的 提示 ， 选 择 在 Windows 服 务 器 压力 最 大 的 时 候 采 集 性 能 。 


14.4 Windows 系 统 压力 模型 建立 


Windows 系 统 压力 模型 建立 的 思想 和 Linux 系 统 非常 相似 ， 同 样 也 是 以 CPU、 网 卡 、 磁 盘 三 方面 的 压力 数据 为 主要 参照 ， 进 行 整理 分 析 。 
1. 分 析 性 能 采集 数据 


在 Windows 系 统 性 能 采集 的 过 程 中 ， 已 经 通过 定义 logman 采 集 项 的 方式 ， 采 集 了 最 关键 的 项 。 














1) CPU 方面 ， 只 取 了 CPU 时 间 ， 也 就 是 通常 说 的 利用 率 ， 这 项 值 越 大 ， 说 明 CPU 压力 越 大 。 

















2) 网 卡 方面 ， 通 过 发 包 率 (每 秒 收发 包 数 量 ) 和 吞吐 两 项 来 衡量 网 卡 压力 ， 一 般 来 阅 ，Windows 系 统 的 虚拟 机 ， 在 网 卡 发 包 率 这 项 要 特别 注意 ， 因 为 ， 由 于 驱动 的 关系 ， 运 行 在 KVM 平 台 上 的 
Windows 虚 拟 机 网 卡 发 包 率 远 远 不 如 Linux 虚 拟 机 ， 通 过 测试 ， 大 概 是 Linux 虚 拟 机 网 卡 发 包 率 1/3 的 性 能 。 

















3) 磁盘 方面 ， 通 过 IOPS (每 秒 读 次 数 、 每 秒 写 次 数 ) 和 IO 延迟 (硬盘 每 次 读 时 间 、 硬 盘 每 次 写 时 间 ) ， 来 判断 磁盘 的 压力 ， 如 果 IOPS 不 高 ， 但 是 IO 延迟 很 大 ， 说 明 磁盘 性 能 是 不 足 的 。 








总 体 来 说， 通过 上 述 三 点 分 析 ， 能 得 出 一 个 正在 运行 的 Windows 负 载 情况 ， 对 于 内 存 这 项 ， 我 们 并 不 需要 太 大 的 关注 ， 因 为 虚拟 化 过 程 中 ， 宿 主机 的 内 存 ， 往 往 不 会 成 为 瓶颈 ， 宿 主机 需要 多 少 内 存 ， 
完全 可 以 根据 虚拟 机 的 内 存 总 和 来 配置 。 








2. 利 用 PAL Tool 展 示 系 统 压 力 






























































PAL (Performance Analysis of Logs) 是 一 个 用 于 分 析 Perfmon 计 数 器 日 志 的 实用 工具 ， 而 且 完 全 免费 ， 最 终 会 产生 一 个 报告 ， 报 告 用 颜色 标记 计数 器 ， 依 次 来 展示 问题 区 ，PAL 默 认 提 供 了 很 多 阅 
值 配置 模板 ， 这 些 都 是 微软 支持 团队 的 主题 专家 定义 的 阅 值 ， 当 然 ， 阅 值 配置 模板 也 可 以 根据 自己 的 情况 自行 定义 。 本 节 将 介绍 如 何 利用 PAL Tool 来 展现 系统 压力 。 






























































首先 介绍 PAL 的 安装 。 安 装 程序 可 以 从 http://pal.codeplex.com/ 官 网 获取 ， 当 前 最 新 版 是 PAL 2.7.1, PAL Tool 安 装 需要 依赖 3 个 组 件 : Windows PowerShell 2.0 or greater, .NET Framework 3.5 
Service Pack 1 及 Microsoft Chart Controls for.NET Framework 3.5。 安 装 完成 之 后 ， 如 图 14-3 所 示 。 














[Yelcone | Counter Log | Threshold File | Questions | Üutput Üptions | File Dutput | Queue | Execute | 


Welcome to the Performance Analysis of Logs (PAL) tool 
analysis wizard. This wizard will guide you through the 
process of analyzing your log file(s). 


1 y 
Author: Clint Huffman 


Ab out the : Author 


Blog 


AL v2 : 


http://pal. codeplex. com/ 


Written by Clint Huffman (clinthémicrosoft. com) and various other 
contributors. 

If you have any questions, problems, or feedback with this tool, then 
please post it to the discussion forum at http://pal. codeplex. com 
This software is licensed “as-is.” You bear the risk of using it. The 


License Information 





414-3 PAL Tool 软 件 界面 





软件 操作 非常 简单 ， 根 据 提示 单 击 “Next” 按 钮 ， 大 部 分 都 可 以 保持 默认 配置 ， 在 Threshold File 这 一 步 既 可 以 选择 系统 自 带 的 阔 值 模板 ， 也 可 以 自 定义 。 最 后 将 生成 一 个 HTML 的 报告 页 面 ， 如 图 14- 
4 所 示 。 











报告 的 内 容 非 常 详 细 ， 可 能 很 直 
3.Windows 压 力 模型 建立 


Windows 压 力 模型 建立 的 思路 和 Linux 系 统 是 一 致 




















观 地 看 到 系统 各 方面 的 压力 情况 ， 读 者 ， 








可 以 尝试 














PAL Tool 分 析 一 下 Permon 生 成 的 日 ; 


a 




















的 ， 也 是 从 CPU、 网 卡 、 磁 盘 


三 方面 压力 来 分 析 ， 再 通过 宿主 机 能 











承载 的 CPU、 








14.2 节 中 已 经 做 了 分 析 ， 本 节 就 不 再 重复 了 。 





网 卡 、 磁 盘 压力 范围 ， 最 终 计算 出 虚拟 化 比例 。 











Analysis of "303DB_07051909.csv" 


Report G 


enerated at: 2015/2/6 19:32:40 


On This Page 


* Tool Parameters 


* Alerts by Chronological Order 
* 2013/7/5 19:09:34 - 2013/7/5 19:17:35 Alerts: (8 


e 2013/7/5 19:17:35 - 2013/7/5 19:25:06 Alerts: 


21 


* 2013/7/5 19:25:06 - 2013/7/5 19:32:37 Alerts: (18 


2013/7/5 19:32:37 - 2013/7/5 19:40:39 Alerts: (16) 





> 2013/7/5 19:40:39 - 2013/7/5 19:48:10 Alerts: (9 


e 2013/7/5 19:55:41 - 2013/7/5 20:03:42 Alerts: 


* 2013/7/5 20:18:44 - 2013/7/5 20:26:46 Alerts: 


2013/7/5 19:48:10 - 2013/7/5 19:55:41 Alerts: (19) 





24 
2013/7/5 20:03:42 - 2013/7/5 20:11:13 Alerts: (21) 
2013/7/5 20:11:13 - 2013/7/5 20:18:44 Alerts: (7 
21 





> 2013/7/5 20:26:46 - 2013/7/5 20:34:17 Alerts: (17) 





2013/7/5 20:34:17 - 2013/7/5 20:41:48 Alerts: (17 


* 2013/7/5 20:41:48 - 2013/7/5 20:49:49 Alerts: (8 


145 本章 小 结 


本 章 主 要 
gnuplot 和 PAL To 























介绍 了 在 虚拟 化 项 目 接 入 之 初 ， 对 现 有 业务 进行 性 能 











ol 分 别 对 采集 到 的 性 能 数据 进行 直观 的 展示 。 

















业务 评估 完成 之 











下 一 步 是 实施 虚拟 化 ， 首 先 面临 的 问题 就 是 宿主 机 如 何 选 型 ， 





A, 


希望 读者 从 本 章 的 介绍 中 ， 了 解 性 能 采集 和 分 析 的 原理 ， 并 最 终结 合 


图 14-4 PAL Tool 软 件 生成 的 报告 





评估 ， 以 确保 将 业务 从 物理 服务 器 迁移 到 虚拟 机 中 ， 性 能 方面 做 到 无 颖 衔接 。 另 外 ， 
































分 别 对 Linux 系 统 和 Windows 系 统 性 能 采集 ， 以 及 使 
己 的 实际 情况 适当 的 变通 ， 最 终 得 到 最 适合 

















己 业务 场景 的 方案 。 

















下 一 章 将 介绍 宿主 机 如 何 选 型 。 





第 15 章 ”宿主 机 选 型 与 基础 性 能 测试 





因为 虚拟 化 是 一 











台 宿 主机 上 运行 多 台 虚 拟 机 ， 所 以 ， 对 宿主 机 的 稳定 性 和 性 能 有 非常 高 的 要 求 。 本 章 介绍 7 














做 到 心中 有 数 。 本 章 介 





让 绍 的 测试 方法 也 可 以 








于 虚拟 机 的 测试 ， 以 取 和 














主机 选 型 应 该 关注 哪些 指标 ， 如 何 进 行 宿主 机 的 性 能 测试 ， 取 得 

















得 基准 数据 ， 对 宿主 机 的 使 




















得 虚拟 机 的 基准 数据 。 


15.1. 宿主 机 CPU 选 型 原则 
CPU 选 型 就 是 首先 确定 自己 的 业务 模型 ， 然 后 根据 业务 模型 决定 是 选 频率 高 的 CPU ， 还 是 核 数 多 的 CPU。 














1.Intel CPU 体系 


Intel CPU 的 发 展 战略 是 钟 摆 模 式 (Tick-Tock) , 

















性 能 相同 下 ， 缩 小 芯片 面 和 














表 15-1 
DESEE 
Tick 制程 改进 更 新 
Tock 
Tick 制程 改进 更 新 
Tock 微 架构 更 新 


是 在 2007 年 正式 提出 的 。 基 本 上 是 一 年 做 架构 更 
、 减 少 功 耗 。 表 15-1 所 示 为 Intel CPU 处 理 器 架构 制程 更 新 路 线 总 结 








Intel CPU 处 架构 制程 更 新 路 线 总 结 


更 新 周期 


Presler, Cedar Mill, Yonah 


CETTET 


Penryn 
Nehalem 





| 
H 


新 Tock， 即 芯片 制程 的 基础 上 ， 更 新 处 理 器 架构 ， 提 升 性 能 。 一 年 做 芯片 制程 的 更 新 Tick， 即 在 CPU 





制造 工艺 / 制程 
65 纳米 


45 纳米 


( 续 ) 


微 架 构 更 新 微 架 构 制造 工艺 / 制程 
Tick 制程 改进 更 新 32 纳米 
Tock 微 架 构 更 新 
Tick 制程 改进 更 新 22 纳米 
Tock 微 架 构 更 新 
Tick 制程 改进 更 新 14 纳米 


Tick 制程 改进 更 新 10 纳米 














Intel 的 处 理 器 产品 线 划分 策略 实际 上 就 是 一 个 核心 ， 从 高 到 低 配置 不 同 的 缓存 、 频 率 、 核 数 ， 由 此 衍生 出 多 个 系列 的 产品 。 
Intel 目 前 主要 的 产品 线 如 下 : 

“ 笔记 本 电脑 为 酷 害 M 处 理 器 。 

“ PC 为 酷 害 13、I5、I7 处 理 器 。 

“ 服务 器 为 志 强 E3、E5、HE7 处 理 器 。 


“ 手机、 平板 为 凌 动 处 理 器 。 





CPU 编号 之 所 以 是 13、15、I7， 或 者 E3、E5、E7， 主 要 是 市 场 销售 策略 ， 能 够 区 分 低 端 、 中 端 、 高 端 产品 ， 并 没有 实际 的 含义 。 





服务 器 端 产品 线 编号 意义 如 图 15-1 所 示 。 











E3 E5E7 


低 功 耗 
标志 L 






Intel 志 强 处 理 器 


最 大 协同 
CPU 数量 
1248 


图 15-1 Intel CPU 编号 意义 


CPU 编号 
10 20 30 


版 本 号 
V2 V3 V4 





例如 ，E5-2640V2 就 是 位 于 E5 这 条 产品 线 ， 最 多 可 以 两 颗 CPU 共 同 工 作 ，CPU 接 口 代号 是 2，40 是 CPU 的 编号 ，v2 是 版 本 号 。 








另外 ， 目 前 的 志 强 CPU 都 支持 寄 频 技术 ， 英 特 尔 寄 频 加 速 技术 可 以 理解 为 自动 超频 。 当 开启 窒 频 加 速 之 后 ，CPU 会 根据 当前 的 任务 量 自动 调整 CPU 主 频 ， 从 而 在 重任 务 时 发 挥 最 大 的 性 能 ， 轻 任务 时 发 
挥 最 大 节能 优势 。 例 如 ，E5-2640V2 标 称 频率 是 2.0GHz， 当 压力 不 大 时 ， 可 能 工作 在 1.2GHz， 随 着 压力 增 大 ， 逐 步 可 以 跳 到 1.8GHz、2.0GHz、2.5GHz， 最 大 支持 跳 到 2.5GHz， 并 且 豁 频 技术 可 以 细 分 到 
每 个 具体 的 CPU 核 上 ，E5-2640V2 是 8 个 核 ， 可 能 有 的 核 工作 在 1.2GHz， 有 的 核 工作 在 2.5GHz。 











2. 如 何 选择 宿主 机 CPU 
宿主 机 CPU 选 型 可 以 分 为 三 步 : 


第 一 ， 查 询 Intel 的 产品 线 ， 了 解 CPU 的 核 数 、 频 率 、 缓 存 情况 ，Intel 官 网 也 可 以 查 到 售 前 价格 。 





第 二 ， 要 清楚 自己 业务 的 CPU 消耗 类 型 ， 分 析 自 己 的 业务 ， 确 认 自 己 业务 的 CPU 消耗 类 型 ， 是 多 进程 还 是 单 进程 ， 是 频率 消耗 型 还 是 可 以 横向 扩展 ， 能 充分 利用 多 核 CPU 资 源 的 类 型 。 




















第 三 ， 结 合 第 一 步 和 第 二 步 的 信息 ， 综 合 价格 ， 就 可 以 确定 一 款 非 常 合适 的 CPU。 
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服务 器 的 内 存 有 许多 独特 的 校 验 技术 ， 目 前 内 存 类 型 和 CPU 平台 是 绑 定 的 ， 旦 选择 了 CPU， 就 只 能 选择 配套 的 内 存 类 型 ， 所 以 ， 在 选择 宿主 机 内 存 时 ， 最 应 该 关注 的 是 总 容量 、 单 根 容量 、 条 数 、 内 存 
频率 这 些 指标 。 




















1. 服 务 器 内 存 技术 











目前 最 新 的 服务 器 上 使 用 的 都 是 DDR4 内 存 ，DDR4 全 称 是 第 四 代 双 倍数 据 率 同步 动态 随机 存 取 存 储 器 (Double-Data-Rate Fourth Generation Synchronous Dynamic Random Access Memory， 
简称 为 DDR4 SDRAM) ，DDR4SDRAM 提 供 更 低 的 供电 电压 和 更 高 的 带宽 ， 支 持 2133~4266MT/s 的 数据 传输 率 ， 比 DDR3 SDRAM 拥 有 更 好 的 功 耗 表现 ，DDR4 只 有 1.05V~1.2V 的 供电 电压 (DDR3 的 为 
1.2V~1.65V) 。 对 于 服务 器 而 言 ，DDR4 还 提供 了 Banks 切 换 特性 ， 但 这 样 使 得 服务 器 用 DDR4 存 储 器 与 桌面 版 本 的 DDR4 存 储 器 从 物理 层面 上 就 无 法 互 用 。 相 较 于 DDR3， 一 个 rank 单 元 内 的 bank 单 元 数量 
增长 至 16 个 (4 个 bank 选 择 比 特 ) ， 每 个 DIMM 模 块 最 高 拥有 8 个 rank 单 元 。 
























































2. 服 务 器 内 存 的 纠 错 技术 介绍 


(1) Parity (奇偶 校 验 ) 技术 





Parity (奇偶 校 验 ) 技术 是 比较 早 的 纠 错 技术 ， 简 单 来 说 就 是 每 8 位 加 一 个 校 验 位 ， 每 次 对 内 存 读 / 写 时 都 会 核对 校 验 ， 但 是 这 样 的 校 验方 法 只 能 发 现 一 位 内 存 错误 ， 并 且 不 能 修正 内 存 错 误 。 





(2) 内 存 ECC 技 术 

















ECC (Error Checking and Correcting， 错 误 检查 和 纠正 ) 技术 可 以 对 内 存 数 据 进行 一 位 的 校 验 ， 发 现 错误 还 可 以 修正 。 它 与 Parity 不 同 的 是 ， 如 果 数 据 位 是 8 位 ， 则 需要 增加 5 位 来 进行 ECC 错 误 检查 
和 纠正 ， 数 据 位 每 增加 一 倍 ，ECC 只 增加 一 位 检验 位 ， 也 就 是 说 当 数 据 位 为 16 位 时 ，ECC 位 为 6 位 ， 当 数据 位 是 32 位 时 ，ECC 位 为 7 位 ， 数 据 位 为 64 位 时 ，ECC 位 为 8 位 ， 以 此 类 推 ， 数 据 位 每 增加 一 
倍 ，ECC 位 只 增加 一 位 。 


















































ECC 技 术 的 特点 是 ， 在 内 存 中 ECC 能 够 容许 错误 ， 并 可 以 将 错误 更 正 ， 使 系统 得 以 持续 正常 地 操作 ， 不 致 因 错误 而 中 断 ， 且 ECC 具 有 自动 更 正 的 能 力 ， 可 以 将 Parity 无 法 检查 出 来 的 错误 位 查 出 并 将 错误 
修正 。 除 了 能 够 检查 到 并 改正 单 比特 错误 之 外 ，ECC 码 还 能 检查 到 (但 不 改正 ) 单 DRAM 芯 片上 发 生 的 任意 两 个 随机 错误 ， 并 最 多 可 以 检查 到 4 位 的 错误 。 当 有 多 位 错误 发 生 时 ，ECC 内 存 会 生成 一 个 不 可 隐 
藏 (Non-Maskable Interrupt) 的 中 断 (NMI) ， 会 中 止 系统 运行 ， 以 避免 出 现 数据 恶化 。 


Q... 


一 些 厂商 推出 的 入 门 级 低 端 服务 器 使 用 的 多 是 普通 PC 用 的 内 存 ， 不 带 ECC 功 能 ， 在 选 购 时 应 该 注意 这 个 指标 。 

















3. 内 存 镜 像 技 术 














内 存 镜 像 (Memory Mirroring) 技术 很 像 磁盘 RAID1， 将 数据 同时 写 到 两 块 内 存 中 ， 每 块 内 存 的 大 小 要 求 是 一 样 的 。 不 同 的 是 ， 两 块 内 存 做 的 是 主 备 ， 正 常 工作 情况 下 ， 内 存 数据 读 取 只 从 主 内 存 中 
读 取 ， 只 有 当 活动 内 存 出 现 故 障 时 ， 才 会 从 镜像 内 存 中 读 取 数 据 。 



































如 果 一 块 内 存 中 有 足以 引起 系统 报警 的 软 故障 ， 系 统 会 报告 系统 管理 员 ， 提 醒 管 理 员 这 个 内 存 条 将 要 出 故障 ;同时 服务 器 就 会 自动 地 切换 到 使 用 镜像 内 存 卡 ， 直 到 这 个 有 故障 的 内 存 被 更 换 。 镜 像 内 存 
人 允许 进行 热 交 换 (Hot Swap) 和 在 线 添加 (Hot-add) 内 存 。 因 为 镜像 内 存 采用 的 两 套 内 存 中 实际 只 有 一 套 在 使 用 ， 另 一 套用 于 备份 ， 所 以 ， 对 于 系统 来 说 也 只 有 整个 内 存 的 一 半 容量 是 可 用 的 。 要 使 用 镜 
像 内 存 ， 需 要 在 BIOS 中 进行 配置 。 





































































































4. 内 存 加 速 技术 介绍 


内 存 加 速 技 术 有 三 种 : 


(1 


内 存 Register 


















































Register 即 寄存 器 或 目录 寄存 器 ， 可 以 把 Register 理 解 成 书 的 目录 或 者 是 数据 库 的 索引 ， 有 了 Register， 当 内 存 接 到 读 / 写 指令 时 ， 会 先 检索 此 目录 ， 然 后 再 进行 读 / 写 操作 ， 若 所 需 数据 在 目录 中 ， 则 直 
接 取 用 不 再 进行 读 / 写 操作 ， 这 将 大 大 提高 服务 器 内 存 工作 效率 。 























(2) 内 存 FB-DIMM 














FB-DIMM (Fully Buffered-DIM M ， 全 缓冲 内 存 模 组 ) 是 Intel 在 DDR2 的 基础 上 发 展 出 来 的 一 种 新 型 内 存 模 组 与 互联 架构 ， 它 既 可 以 搭配 DDR2 内 存 芯 片 ， 也 可 以 搭配 DDR3、DDR4 内 存 芯 片 。FB- 
DIMM 可 以 极 大 地 提升 系统 内 存 带宽 并 且 极 大 地 增加 内 存 最 大 容量 。 











(3) 内 存 多 通道 


在 北桥 芯片 中 设计 两 个 或 者 多 个 内 存 控制 器 ， 这 些 内 存 控制 器 可 以 相互 独立 工作 ， 每 个 控制 器 控制 一 个 内 存 通 道 。 在 这 些 内 存 通 道上 ，CPU 可 分 别 寻 址 、 读 取 数 据 ， 从 而 使 内 存 的 带宽 增加 一 倍 或 者 几 
倍 ， 数 据 存 取 速 度 也 相应 增加 。 


5. 宿 主机 内 存 选 型 注意 点 














目前 ， 内 存 一 般 都 是 和 CPU 搭配 使 用 的 ， 一 旦 选择 了 CPU 和 服务 器 的 品牌 型 号 ， 相 应 地 内 存 的 频率 、 多 通道 等 都 是 唯一 的 ， 因 此 ， 内 存 的 选择 应 关注 以 下 4 点 : 




















“内存 应 该 配置 多 少 条 。 


“ 共 需 要 配置 内 存 容量 到 多 少 。 


. 内 存 频 率 。 











例如 ， 需 要 配置 宿主 机 内 存 为 128GB， 如 果 配 置 两 个 CPU， 一 般 每 个 CPU 是 双 通道 ， 两 个 CPU 就 是 4 通道 ， 所 以 ， 内 存 的 条 数 必须 是 4 的 倍数 ，128GB 可 以 使 用 16 个 8GB 的 内 存 ， 也 可 以 使 用 8 个 16GB 的 
内 存 ， 具 体 如 何 配置 也 要 考虑 实际 的 价格 及 以 后 的 扩展 性 。 





























15.3 ”宿主 机 硬盘 选 型 


本 节 介绍 宿主 机 硬盘 的 选 型 ， 一 般 生 产 环境 硬盘 使 





1. 磁 盘 类 型 


























SAS 硬 盘 ， 如 果 磁盘 |/O 压 力 特别 大 ， 可 以 考虑 使 





目前 ,服务 器 上 常见 的 硬盘 有 如 下 3 种 类 型 : 


(1) 机 械 硬 盘 


机 械 硬 盘 (HDD) 由 盘 片 、 磁 头 、 电 动机 、 控 制 器 组 成 ， 数 据 读 / 写 3 





















































取决 用 盘 片 的 转速 。 一 般 PC 常 见 的 SATA 转 速 是 5400r/min 或 者 7200r/min， 服 务 器 
(2) 固体 硬盘 
固体 硬盘 (Solid State Disk, SSD) 是 用 存储 器 作为 存储 ， 类 似 常 用 的 U 盘 ， 没 有 电导 
(3) PCI-E 加 速 卡 
PCI-E 加 速 卡 是 将 存储 器 配置 到 一 块 PCI-E 接 口 的 卡 上 ， 与 CPU、 内 存 进 行 交 互 ， 
2. 硬 盘 的 接 
最 早 的 硬盘 是 并 行 接口 ， 主 要 是 ATA (IDE) 和 SCSI 接 口 ， 后 来 发 展 到 串 行 接 
(1) ATA 


ATA 的 全 称 为 Advanced Technology Attachment, Æ; 


部 散热 ， 已 逐渐 被 SATA 所 取代 。 


(2) SATA 


SATA 的 全 称 为 Serial ATA， 也 就 是 使 用 恒 















































SSD 硬 盘 。 














要 是 通过 盘 片 转动 和 电动 机 驱动 磁头 横向 移动 完成 的 。 所 以 ，HDD 硬 盘 的 容量 取决 于 盘 片 的 密度 和 盘 片 的 数量 。 数 据 读 / 写 速度 主 
















































































] 的 ATA 接 




















750Mbit/s 的 传输 速度 。SATA 的 数 


轴线 也 比 ATA 细 得 多 ， 有 利于 机 箱 内 








(3) SCSI 


SCSI 的 全 称 是 small Computer System Interface (/ 
广 为 工 作 站 级 个 人 计算 机 以 及 服务 器 所 使 用 ， 


(4) SAS 


传统 的 40-pin 并 


， 抗 干扰 性 强 ， 











直接 天 


一 一 SATA 和 SAS， 另 外 还 有 光纤 通道 接口 。 


的 SAS 硬 盘 ， 一 般 是 10000r/min,， 或 者 15000r/min。 


机 ， 所 以 没有 噪音 ， 体 积 也 很 小 。 





EPCI-E 总 线 ， 速 度 要 快 很 多 。 




















排 线 占 计算 机 内 














为 并 口 线 的 抗 干扰 性 太 差 ， 空间 较 大 ， 不 利 了 

















数 





























板 与 硬盘 ， 接 口 速度 最 大 为 133Mbit/s， 





























对 数据 线 的 长 度 要 求 比 ATA 低 很 多 ， 支 持 热 插 拔 等 功能 ，SATA-II 的 接 





口 速度 为 375Mbit/s， 而 新 的 SATA- 川 标准 可 达到 





的 空气 流通 ， 整 理 线材 也 比较 方便 。 











\ 型 机 系统 接 


























因此 , 会 使 














) ， 经 历 多 代 的 发 
较为 先进 的 技术 ， 如 碟 片 转速 15000r/m 的 高 转速 ， 且 资料 传输 时 CPU 占 | 





前 的 Ultra320 SCSI 以 及 Fiber-Channel (光纤 通道 ) ， 接 口 型 式 也 多 种 多 样 。SCSI 硬 盘 
率 较 低 ， 但 是 单价 也 比 相同 容量 的 ATA 及 SATA 硬 盘 更 加 昂贵 。 











展 ， 从 早期 的 SCSI-1 到 









































SAS (Serial Attached SCSI) 是 新 一 代 SCSI 技 术 ， 与 SATA 硬 盘 相同 ， 都 是 采取 序列 式 技术 以 获得 更 高 的 传输 速度 ， 可 达到 6Gbit/s。 此 外 ， 也 通过 缩小 连接 线 改善 系统 内 部 空间 等 。 





由 于 SAS 硬 盘 可 以 与 SATA 硬 盘 共享 同样 的 背 板 ， 因 


(5) FC 


FC 的 全 称 是 Fibre Channel， 即 光纤 通道 接 
于 高 端 服务 器 领域 。 











PREN, 通常 





3. 硬 盘 的 缓存 


磁盘 缓存 相当 于 在 硬盘 上 有 一 块 内 存 ， 所 有 来 往 的 数据 都 通过 缓存 中 转 ， 达 到 提升 读 / 写 效率 的 目的 。 一 般 服 务 器 硬盘 、 硬 盘 缓存 都 是 被 关闭 的 ， 因 
电池 保护 ， 在 服务 器 突然 断 电 时 ， 能 保证 将 缓存 的 数据 刷 到 硬盘 上 ， 或 者 能 在 缓存 上 保存 一 段 时 间 。 








RAID 卡 的 缓存 来 提升 读 / 写 效率 ， 

















4.SATA、SAS、SSD 硬 盘 应 





SATA 硬 盘 在 生产 环境 主要 有 


“ 第 一 种 场 最 主要 是 备份 和 对 


“ 第 二 种 场景 是 可 以 与 其 他 高 速 设 备 








服务 器 的 RAID 卡 一 般 都 有 电 





用 场景 比较 




















下 两 种 应 用 场景 : 








全 能 不 高 





























SAS 硬 盘 是 目前 在 生产 环境 使 











最 多 的 硬盘 ， 其 











SSD 硬 盘 正在 逐步 普及 ， 在 虚拟 化 中 主 





此 ， 在 同一 个 SAS 存 储 系统 中 ， 可 以 


口 。 拥 有 此 接口 的 硬盘 在 使 用 光纤 连接 时 


， 但 是 磁盘 空间 要 求 比较 大 的 场景 。 
结合 ， 利 用 高 速 设备 做 缓存 ， 通 过 高 低 搭配 ， 实 现 性 能 和 容 


性 能 比 SATA 硬 盘 高 3~5 倍 ， 对 CPU 的 消耗 也 要 低 很 多 ， 如 果 是 高 磁盘 /O 消 耗 性 的 应 











- 磁盘 的 随机 写 IOPS 大 于 2000IOPS 的 应 用 场景 。 


- 磁盘 的 随机 读 IOPS 大 于 10000IOPS 的 应 用 场景 。 


15.4 ”RAID 卡 选 型 


生产 环境 宿 3 





1.RAID 技 术 介 绍 


RAID (Redundant Array of 


E 机 RAID 级 别 一 般 使 























Independent Disks) 即 


廉价 元 余 磁盘 阵列 ， 


应 用 在 以 下 需要 高 IOPS 的 场景 : 


[=R 
EPR 


的 SAS 硬 盘 ， 节 省 整体 的 存储 成 本 。 但 SATA 人 存储 系统 并 不 能 连接 SAs 硬 盘 。 





SATA 硬 盘 来 取代 部 分 




















ay 

















高 速 带宽 (4Gbit/s 或 10Gbit/s) 、 远 程 连接 等 特点 ; 内 部 传输 速率 也 比 普通 硬盘 更 高 。 限 制 于 








有 热 插 拔 性 、 











为 如 果 机 器 掉 电 ， 会 造成 数据 丢失 。 服 务 器 上 都 是 使 

















量 的 平衡 。 














， 一 般 要 搭配 高 缓存 带电 池 的 RAID 卡 使 用 。 























RAID10，RAID 卡 选择 带 缓存 和 电池 的 卡 ， 可 以 有 效 地 提示 宿主 机 的 MO 性 能 。 








前 常 








的 RAID 级 别 有 RAID0、RAID1、RAID5、RAID6 和 RAID10。 

















| RAID0: 数据 分 到 多 块 硬盘 上 ， 并 同时 读 / 写 ， 可 以 提升 磁盘 读 / 写 的 性 能 。 


- RAID1: 保存 一 样 的 两 份 数据 到 两 块 磁盘 上 ， 当 一 块 磁盘 有 故障 时 ， 数 据 不 丢失 。 


|RAIDS: 由 3 块 以 上 的 磁盘 组 成 ， 数 据 分 块 保存 到 磁盘 上 ， 并 有 数据 的 校 验 块 ， 多 个 磁盘 共同 参与 读 / 写 ， 可 以 提升 读 / 写 性 能 ， 并 且 当 一 块 磁盘 出 现 故 障 时 ， 通 过 数据 校 验 块 ， 数 据 可 以 恢复 ， 不 会 造 
成 数据 丢失 。 


- RAID6: 与 RAID5 很 相似 ,但 是 算法 更 复杂 ， 有 两 块 硬盘 宛 余 ， 可 以 在 两 块 硬盘 故障 的 情况 下 不 丢 数 据 。 

“ RAID10: 多 个 两 块 硬盘 的 RAID1 组 ， 再 组 合成 RAID0， 这 样 羔 有 RAID0、RAID1 的 好 处 ， 既 有 数据 宛 余 ， 又 能 保证 性 能 。 
RAID 有 软 RAID 和 硬 RAID 之 分 : 

“ 软 RAID 是 在 操作 系统 层面 完成 RAID 计 算 ， 需 要 消耗 CPU 的 计算 资源 。 


- 硬 RAID 是 将 RAID 算 法 国 话 到 硬件 上 ， 通 过 专门 的 硬件 来 完成 ， 这 就 是 RAID 卡 ，RAID 卡 也 可 以 理解 成 一 台 专 用 的 计算 机 ， 它 有 计算 、 缓 存 、 存 储 、 通 信 单 元 ， 只 是 的 功能 单一 ， 就 是 用 于 RAID 计 


























一 般 服务 器 上 都 使 用 硬件 的 RAID 卡 ， 可 以 不 占用 CPU 资源 。 另 外 ， 硬 件 的 RAID 卡 一 般 有 电池 保护 ， 当 服务 器 掉 电 时 ， 可 以 保证 写 到 RAID 卡 上 的 数据 不 丢失 。 














2.RAID 卡 选 型 
选择 RAID 卡 时 要 注意 以 下 参数 : 
- 支持 的 RAID 级 别 。 
“ 缓存 大 小 。 
“ 是 否 带 电池 。 
服务 器 的 RAID 从 功能 上 可 以 分 为 以 下 两 种 : 
- 入门 级 的 RAID 卡 。 一 般 这 种 RAID 卡 只 支持 RAID1、RAID0，RAID10， 不 支持 RAID5， 没 有 缓存 ， 不 带电 池 ， 用 于 CPU 消耗 性 的 服务 器 。 


“ 更 高 级 一 点 的 RAID 卡 。 支 持 RAID5 甚 至 RAID6， 带 有 缓存 和 电池 。 一 般 用 在 磁盘 I/O 密 集 的 服务 器 上 。 
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15.5 ”服务 器 网 卡 选 型 





























服务 器 网 络 的 一 个 特点 是 连接 并 发 数 高 ， 对 计算 资源 的 要 求 非常 高 ， 较 低 的 CPU 占用 率 对 于 服务 器 网 卡 来 说 是 非常 重要 的 ， 所 以 ， 服 务 器 网 卡 都 有 自己 的 计算 单元 ， 能 够 处 理 一 些 网 络 方面 的 计算 压 


力 。 
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1. 服 务 器 网 卡 介 绍 











服务 器 专用 网 卡 一 般 具 有 如 下 特点 : 











“ 低 延 时 、CPU 占 用 率 低 。 


“ 稳定 性 和 安全 性 。 


“ 多 网 卡 、 高 带宽 。 














服务 器 专用 网 卡 可 以 从 主 CPU 中 接管 许多 网 络 任务 ， 使 主 CPU 集 中 “精力 ”运行 网 络 操 作 和 应 用 程序 ， 当 然 服务 器 的 服务 性 能 也 就 不 会 再 受 影 响 了 。 















































服务 器 最 重要 的 是 稳定 性 ， 为 了 保证 服务 器 的 稳定 性 ， 所 有 配件 都 必须 具备 同样 高 的 品质 。 服 务 器 网 卡 除了 芯片 性 能 够 好 之 外 ， 用 料 充足 和 做 工 精良 也 是 必需 的 。 网 卡 的 稳定 性 也 体现 在 数据 传输 的 表 
现 上 ， 服 务 器 网 卡 的 传输 曲线 都 很 平滑 ， 升 降 波动 少 。 网 络 传输 是 以 数据 包 的 形式 发 送 的， 如果 网 络 质量 不 好 ， 就 容易 发 生 丢 包 的 现象 。 如 果 网 卡 性 能 不 够 好 ， 那 么 在 网 卡 负载 大 时 ， 丢 包 的 概率 就 会 上 
升 ， 发 生 丢 包 后 ， 数 据 就 要 重新 传输 ， 反 过 来 再 次 增加 网 卡 的 压力 。 

























































































服务 器 网 卡 一 般 采 用 PCI Express 总 线 ，PCI Express 的 接口 根据 总 线 位 宽 不 同 而 有 所 差异 ， 包 括 X1、X4、X8 以 及 X16 (X2 模 式 将 用 于 内 部 接口 而 非 播 槽 模式 ) 。 较 短 的 PCI Express 卡 可 以 插入 较 长 的 
PCI Express 插 槽 中 使 用 。PCI Express 接 口 能 够 支持 热 拔 插 。 





























目前 ， 常 见 服务 器 一 般配 置 4 个 或 者 8 个 网 卡 ， 支 持 1GB/s、10GB/s 甚 至 40GB/s 的 带宽 。 
2. 服 务 器 网 卡 选 型 


笔者 的 宿主 机 网 卡 的 选 型 经 验 如 下 : 





“ 如 果 选 择 千 兆 网 卡 ， 建 议 选 择 Intel 的 1350 网 卡 。 


“ 如 果 选 择 需要 万 兆 网 卡 ， 建 议 选 择 Intel 的 x520 或 者 x540 的 网 卡 。 





因为 这 些 网 卡 都 支持 SRIVO，SRIOV 是 非常 好 的 虚拟 化 性 能 解决 方案 ，1350 干 兆 网 卡 支持 8 块 子 网 卡 ，x520 或 X540 的 万 兆 网 卡 支持 64 块 子 网 卡 。 





























选择 Intel 网 卡 ， 还 因为 Intel 的 DPDK 技 术 ，DPDK 技 术 是 一 套 开发 包 ， 在 内 核 、 虚 拟 化 层 、Virt1O 接 口 都 针对 Intel 硬 件 做 了 性 能 优化 。 














15.6 ”宿主 机 性 能 基准 测试 实践 














在 KVM 技 术 里 期， 虚拟 机 的 CPU 中 断 和 上 下 文 切换 消耗 比较 严重 。 随 着 目前 虚拟 化 技术 的 发 展 ，CPU 性 能 从 物理 机 转化 到 虚拟 机 ， 损 失 已 经 非常 少 了 ， 往 往 计算 方面 的 瓶颈 受 限于 物理 CPU 的 性 能 ， 而 




















CPU 性 能 的 测试 ， 在 不 同 场景 下 差异 非常 大 ， 所 以 ， 一 般 CPU 在 虚拟 化 环境 下 的 测试 ， 只 是 简单 对 比 一 下 不 同型 号 CPU 计算 能 力 差异 。 




















1.CPU 测 试 工具 与 测试 方法 











(1) 测试 工具 














笔者 经 常 使 用 的 测试 工具 主要 有 两 款 : Super PI 和 UnixBench。 














DSuper Pl. 





Super PI 的 官方 地 址 为 http://www.superpi.net/， 在 官网 的 http://www.superpi.net/Scores/action=searchScores&test=-12&vendor=&platform=&series=&rpp=20 链 接 中 可 以 查 到 大 部 分 
CPU 的 得 分 ， 有 1M 和 32M 两 种 。 





官网 下 载 的 是 Windows 版 本 ，Linux 版 本 可 以 在 ftp://pi.super-computing.org/Linux/super_pi.tar.gz 链 接 中 下 载 。 











下 载 后 解压 就 可 以 直接 运行 了 ， 如 果 报 如 下 错误 : 








./super pi 20 
./super pi: ./pi: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory 








是 因为 在 64 位 的 系统 上 ， 需 要 安装 32 位 的 库 文件 : 








yum install glibc.i686 
./super pi 20 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
meme Started super pi run : Sun Dec 28 22:35:32 CST 2014 T 
Start of PI calculation up to 1048576 decimal digits 
i 0 


End of initialization. Time- .235 Sec. 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
I-19 L- 89415 Time- 0.474 Sec. B 

End of main loop 

End of calculation. Time- 11.095 Sec. 

End of data output. Time- 0.064 Sec. 

Total calculation(I/O) time- 11.159( 0.276) Sec. 


二 一 一 一 一 一 Ended super pi run : 























Super PI 是 一 个 典型 的 CPU 密集 型 基准 测试 工具 ， 原 理 非常 简单 ， 根 据 设 置 计算 圆周 率 r 小 数 点 后 N 个 位 数 ， 然 后 统计 消耗 的 时 间 ， 根 据 时 间 长 度 的 比较 就 能 初步 衡量 CPU 计算 能 力 的 强 弱 。Super PIE 
要 是 浮 点 计算 能 力 的 比较 。 




















QUnixbench, 








Unixbench (https;//code.google.com/p/byte-unixbench) 是 一 套 UNIX 系 统 基准 测试 套件 。Unixbench 的 设计 目标 是 为 类 UNIX 系 统 提供 一 套 基本 的 指标 ， 有 许多 项 目测 试 系统 各 方面 的 性 能 。 各 
项 的 测试 有 得 分 ， 还 有 一 个 综合 的 得 分 ， 这 样 可 以 很 方便 地 通过 分 数 去 比较 。 























Unixbench 也 包含 一 些 非常 简单 的 2D 和 3D 图 形 测试 。 

















Unixbench 也 支持 多 CPU 系统 的 测试 ， 默 认 的 行为 是 测试 两 次 ， 第 一 次 是 一 个 进程 的 测试 ， 第 二 次 是 N 份 测试 ，N 等 于 CPU 个 数 。 这 样 的 设计 是 为 了 以 下 目标 : 

















“ 测试 系统 的 单 任务 性 能 。 


: 测试 系统 的 多 任务 性 能 。 


“ 测试 系统 并 行 处 理 的 能 力 。 





























Unixbench 是 一 个 基于 系统 的 基准 测试 工具 ， 不 单纯 是 CPU 内 存 或 者 磁盘 测试 工具 。 测 试 结果 不 仅 取决 于 硬件 ， 还 取决 于 系统 、 开 发 库 和 编译 器 。 








(2) 测试 项 目 


@Dhrystone 测 试 。 








Dhrystone 测 试 聚 焦 在 字符 串 处 理 ， 没 有 浮 点 运算 操作 。 这 个 测试 用 于 测试 链接 器 编译 、 代 码 优化 、 内 存 缓存 、 等 待 状态 、 整 数 数据 类 型 等 ， 硬 件 和 软件 设计 都 会 影响 测试 结果 。 








@Whetstone 测 试 。 


















































这 项 测试 项 目 用 于 测试 浮 点 运算 效率 和 速度 ， 包 含 若干 个 科学 计算 的 典型 性 能 模块 、 大 量 的 C 语 言 函 数 (sin. cos sqrt、exp) 和 日 志 ， 以 及 使 用 整数 和 浮 点 的 数学 操作 ， 还 包含 数组 访问 、 条 件 分 支 和 























Execl Throughput (Execl 吞 吐 ， 这 里 的 Execl 是 类 UNIX 系 统 非 常 重 要 的 函数 ， 非 办 公 软 件 的 Excel) 测试 


























[ 





这 项 测试 测试 每 秒 Execl 函 数 的 调用 次 数 。Exec| 是 Exec 函 数 家 族 的 一 部 分 ， 使 用 新 的 








形 处 理 代 蔡 当前 的 图 形 处 理 。 有 许多 命令 和 前 端的 Execve () 函数 命令 非常 相似 。 








GFile Copy 测 试 。 

















这 项 测试 衡量 文件 数据 从 一 个 文件 被 传输 到 另外 一 个 ， 使 用 大 量 的 缓存 ， 包 括 文件 的 读 、 写 、 复 制 测试 ， 测 试 指 标 是 一 定时 间 内 (默认 是 10 秒 ) 被 重 写 、 读 、 复 制 的 字符 数量 。 








@Pipe Throughput (管道 吞吐 ) 测试 。 











Pipe 是 简单 的 进程 之 间 的 通信 。 管 道 吞 吐 测试 是 测试 在 一 秒 内 一 个 进程 写 512bit 到 一 个 管道 中 并 且 读 回来 的 次 数 。 管 道 吞吐 测试 和 实际 编程 有 差距 。 





GPipe-based Context Switching (基于 管道 的 上 下 文 交互 ) 测试 。 





这 项 测试 衡量 两 个 进程 通过 管道 交换 和 整数 倍 的 增加 吞吐 的 次 数 。 基 于 管道 的 上 下 文 切 换 和 真实 程序 很 类 似 ， 测 试 程序 产生 一 个 双向 管道 通信 的 子 线程 。 








@Process Creation (进程 创建 ) 测试 。 

















这 项 测试 衡量 一 个 进程 能 产生 子 线程 并 且 立 即 退 出 的 次 数 。 新 进程 真 的 创建 进程 阻塞 和 内 存 占用 ， 所 以 ， 测 试 程序 直接 使 用 内 存 带 宽 。 这 项 测试 用 于 典型 的 比较 大 量 的 操作 系统 进程 创建 操作 。 























Q@Shell 脚 本 测试 。 




















Shell 脚 本 测试 用 于 衡量 在 一 分 钟 内 一 个 进程 可 以 启动 并 停止 shell 脚 本 的 次 数 ， 通 常会 依次 按照 1，2，3，4，8 的 参数 ， 运 行 Shell 脚 本 的 共同 复制 ，Shell 脚 本 是 一 套 转 化 数据 文件 的 脚本 。 























@®System Call Overhead (系统 调用 消耗 ) 测试 。 


















































的 进程 id) 。 消 耗 的 指标 是 调用 进入 和 离开 内 核 的 执行 时 间 。 


























这 项 测试 衡量 进入 和 离开 系统 内 核 的 消耗 ， 例 如 ， 系 统 调 用 的 消耗 。 程 序 简单 重复 地 执行 getpid 调 用 (返回 调 


























GGraphical (图 形 ) 测试 。 





























形 性 能 ， 尤 其 是 在 3D 测 试 上 非常 有 限 。 测 试 结果 与 硬件 、 系 统 是 否 有 合适 的 驱动 关系 很 大 。 








测试 由 ubgears 程 序 组 成 ， 测 试 非常 粗 粒度 的 2D 和 3D 
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(3) 安装 和 使 











n 





Unixbench 安 装 很 简单 ， 下 载 、 解 压 、 编 译 就 可 以 。 


wget http:// byte-unixbench.googlecode.com/files/unixbench-5.1.2.tar.gz 
tar xvfz unixbench-5.1.2.tar.gz 
cd unixbench-5.1.2 





如 果 不 需 要 测试 图 形 ， 注 释 掉 Makefile 文 件 的 这 一 行 即 可 。 











#GRAPHIC TESTS = defined 


运行 命令 如 下 : 


./Run 











测试 结果 如 图 15-2 所 示 ， 有 分 享 得 分 和 总 得 分 。 











Version 5.1.2 Based on the Byte Magazine Unix Benchmark 
Dhrystone 2 using register variables 12 34 56 7 8 9 10 
Double-Precision Whetstone 12 34 56 7 8 9 10 
Execl Throughput 1 2 3 

x File Copy 1024 bufsize 2000 maxblocks 1 2 3 

x File Copy 256 bufsize 500 maxblocks 1 2 3 

x File Copy 4096 bufsize 8000 maxblocks 1 2 3 

x Pipe Throughput 12 34 5 6 7 8 9 10 

x Pipe-based Context Switching 12 34 5 6 7 8 9 10 

x Process Creation 1 2 3 

x System Call Overhead 12 34 5 6 7 8 9 10 
Shell Scripts (1 concurrent) 1 2 3 
Shell Scripts (8 concurrent) 1 2 3 


FH H|H|HHgHHBÍIÀIÍPwÁwipmL: 


CPU in system; running 1 parallel copy of tests 


Dhrystone 2 using register variables 28890881.0 lps (10.0 s, 7 samples) 


Double-Precision Whetstone 3880.4 MWIPS (9.0 s, 7 samples) 
Execl Throughput 4146.3 lps (30.0 s, 2 samples) 
File Copy 1024 bufsize 2000 maxblocks 1051084.3 KBps (30.0 s, 


2 samples) 


File Copy 256 bufsize 500 maxblocks 286552.2 KBps (30.0 s, 2 samples) 


File Copy 4096 bufsize 8000 maxblocks 2142638.4 KBps (30.0 s, 
Pipe Throughput 1726807.0 lps (10.0 s, 7 samples) 

Pipe-based Context Switching 322865.5 lps (10.0 s, 7 samples) 
Process Creation 13662.4 lps (30.0 s, 2 samples) 

Shell Scripts (1 concurrent) 5955.4 lpm (60.0 s, 2 samples) 
Shell Scripts (8 concurrent) 713.1 lpm (60.0 s, 2 samples) 
System Call Overhead 2138318.1 lps (10.0 s, 7 samples) 

System Benchmarks Index Values BASELINE RESULT INDEX 


Dhrystone 2 using register variables 116700.0 28890881.0 2475. 


Double-Precision Whetstone 55.0 3880.4 705.5 

Execl Throughput 43.0 4146.3 964.2 

File Copy 1024 bufsize 2000 maxblocks 3960.0 1051084.3 2654.3 
File Copy 256 bufsize 500 maxblocks 1655.0 286552.2 1731.4 
File Copy 4096 bufsize 8000 maxblocks 5800.0 2142638.4 3694.2 
Pipe Throughput 12440.0 1726807.0 1388.1 

Pipe-based Context Switching 4000.0 322865.5 807.2 

Process Creation 126.0 13662.4 1084.3 

Shell Scripts (1 concurrent) 42.4 5955.4 1404.6 

Shell Scripts (8 concurrent) 6.0 713.1 1188.4 

System Call Overhead 15000.0 2138318.1 1425.5 


System Benchmarks Index Score 1444.7 








15-2 ”Unixbench 测 试 结果 








2. 内 存 测试 工具 与 测试 方法 





2 samples) 


7 


虚拟 机 和 物理 机 的 性 能 差异 主要 体现 在 内 存 占用 与 释放 上 ， 因 为 虚拟 机 的 内 存 占用 与 释放 需要 在 虚拟 机 上 操作 一 次 ， 还 需要 在 宿主 机 上 操作 一 次 ， 即 虚拟 机 的 内 存 实际 是 被 映射 了 两 次 。 一 方面 ， 随 着 





虚拟 化 技术 的 发 展 ， 如 透明 大 页 内 存 技术 的 采用 ， 另 外 一 方面 ， 因 为 内 存 是 一 个 高 速 设备 ， 主 要 的 瓶颈 主要 是 硬件 的 频率 、 容 量 等 ， 软 件 上 的 损耗 和 硬件 比 起 来 比率 很 低 ， 
要 是 测试 内 存 是 否 有 错误 。 





笔者 常用 的 测试 工具 是 Memtester 和 Memtest86+。 





Memtester 是 从 系统 中 测试 内 存 是 否 有 错误 ， 主 要 项 目 有 随机 值 、 异 或 比较 、 减 法 、 乘 法 、 除 法 、 与 或 运算 等 ， 可 以 给 定 测试 内 存 的 大 小 和 次 数 。 
Memtester 官 网 网 址 是 http://pyropus.ca/software/memtester/。 


该 工具 的 安装 很 简单 ， 下 载 、 解 压 ， 使 用 make、make install 命 令 即 可 。 


因此 ， 宿 主机 的 内 存 测试 一 般 主 








wget \ 
http:// pyropus.ca/software/memtester/old-versions/memtester-4.3.0.tar.gz 
tar xvf memtester-4.3.0.tar.gz 

ester-4.3.0 














该 工具 的 使 用 也 很 简单 ， 加 上 要 测试 的 内 存 大 小 和 测试 次 数 就 可 以 ， 内 存单 位 可 以 是 B、KB、MB、GB， 测试 结果 如 图 15-3 所 示 ， 如 果 显 示 ok， 表 示 每 项 测试 均 正常 。 











memtester 20M 2 
memtester version 4.3.0 (64-bit) 
Copyright (C) 2001-2012 Charles Cazabon. 
Licensed under the GNU General Public License version 2 (only). 
pagesize is 4096 
pagesizemask is OxfffffffffffffOOO 
want 20MB (20971520 bytes) 
got 20MB (20971520 bytes), trying mlock ...1locked. 
Loop 1/2: 
Stuck Address 
Random Value 
Compare XOR 
Compare SUB 
Compare MUL 
Compare DIV 
Compare OR 
Compare AND 
Sequential Increment 
Solid Bits 
Block Sequential 
Checkerboard 
Bit Spread 
Bit Flip 
Walking Ones 
Walking Zeroes 
8-bit Writes 
16-bit Writes 


Loop 2/2: 


Done. 





图 15-3 ”Memtester 测 试 结果 
Memtester 测 试 结果 : Memtest86+ 测 试 内 存 不 需要 通过 系统 ， 而 是 通过 光盘 、 软 盘 、U 盘 引导 一 个 小 型 系统 来 检测 内 存 。 


Memtest86+ 官 方 网 址 是 http://www.memtest.org/， 可 以 下 载 光盘 、 软 盘 、U 盘 的 镜像 ， 然 后 引导 系统 ， 进 行内 存 测试 就 可 以 了 ， 如 图 15-4 所 示 。 





Memtest86* 5.01 
,LK: 2666 MHz (x64 Mode) 
Li Cache: 32K 76174 MB/s 
L2 Cache: 4096K 15869 MB/s 
L3 Cache: None 
4096M 13069 MB/s 


QEMU Virtual CPU version 


Pass 4» H 


CEAMLIDIAMIIDPREIIIIIIIII 
ing inversions, 8 bit pattern] 
Testing: 1024K - 2048M 
Pattern: 04040404 


Test #5 [Mov 


1:543 


2047M of 4096M 
i Time: 0:00:30 


ipset: Intel i440FX 
EDO DRAM 


Oo (SMP: Disabled) 


| Running... 


1 Active "^ 1 Total (Run: 11) 


(ESC)exit  (cO)configuration 














Ch 


RAM Type: 


Pass: 


(SP)scroll_lock 


图 15-4 使 用 Memtest86+ 测 试 内 存 























压力 模型 ， 并 根据 自己 的 业务 进行 网 络 压力 测试 ， 取 得 基准 的 数据 ， 为 宿主 机 的 使 用 提供 依据 。 
































络 1/O 测 试 建议 使 用 以 下 测试 用 例 : 

















© TCP A e RI AS 

© TCP 连接 数 测 试 。 
“TCP 单 连接 多 交易 测试 测试 。 
TCP 发 包 率 测试 。 

: UDPA&sE 3t] io 

“ UDP 单 连接 多 交易 测试 测试 。 
UDP 发 包 率 测试 。 


C 业务 模型 网 络 模拟 测试 。 

















进行 网 络 测试 时 ， 有 的 场景 对 CPU 消耗 很 高 ， 所 以 ， 要 注意 观察 并 记录 CPU 的 利用 率 。 





(1) 测试 工具 























笔者 常用 的 网 络 测试 工具 是 Netperf。 
































Netperf (http://w etpe ) 是 一 款 网 络 性 能 的 测量 工具 ， 

















Transfer) 模式 和 请 求 /应 答 (Request/Reponse) 模式 。Netperf 测 试 结果 所 





Netperf 工 具 以 Client/Server 方 式 工 作 。Server 端 是 Netserver， 用 来 侦 听 来 自 C 





要 针对 基于 TCP 或 UDP 的 传输 。Netperf 根 据 应 
反映 的 是 一 个 系统 能 够 以 多 快 的 速 





(CR)scroll unlock 


Errors: 








网 络 |/O 是 虚拟 化 中 的 一 个 难点 和 热点 ， 一 方面 是 虚拟 机 经 常 碰 到 网 络 方面 的 性 能 瓶颈 ， 另 一 方面 是 虚拟 化 时 ， 经 常 遇 到 网 络 稳定 性 方 


面 的 问题 。 宿 主机 的 网 络 测 试 还 有 一 个 目的 ， 就 是 提炼 业务 的 网 络 





























的 不 同 ， 可 以 进行 不 同 模式 的 网 络 性 能 测试 ， 即 批量 数据 传输 (Bulk Data 
度 向 另外 一 个 系统 发 送 数 据 ， 以 及 另外 一 个 系统 能 够 以 多 块 的 速度 接收 数据 。 












































ient 端 的 连接 ，Client 端 是 Netperf，| 














来 向 Server 发 起 网 络 测试 。 在 Client 与 server 之 间 首 先 建立 一 个 控制 连接 ， 传 递 





有 关 测 试 配 置 的 信息 ， 以 及 测试 的 结果 ;在 控制 连接 建立 并 传递 了 测试 配置 信息 以 后 ，Client 与 Server 之 间 会 8 











安装 需要 下 载 的 源 代码 并 进行 编译 ， 或 者 使 用 epel 源 通过 yum 安 装 也 可 以 。 








进行 网 络 测试 时 ， 一 般 有 如 下 两 个 关键 指标 : 
C BPS 网 络 吞吐 量 ; 一 分 钟 经 过 网 卡 的 数据 流量 。 
“ PPS 发 包 率 : 一 分 钟 经 过 网 卡 数据 包 的 数量 。 
Netperf 可 以 模拟 如 下 三 种 不 同 的 TCP 流 量 模式 : 
- 单 TCP 连 接 : 传输 大 量 数据 。 


“ 单 TCP 连 接 : 大 量 的 连接 次 数 。 





建立 一 个 测试 连接 ， 











来 来 








回 传递 着 特殊 的 流量 模式 ， 以 测试 网 络 的 性 能 。 


“ 多 TCP 连 接 : 每 个 连接 中 一 对 请 求 / 应 答 的 交易 方式 。 
Netperf 可 以 模拟 两 种 UDP 的 流量 模式 : 
- 单 向 批量 传输 。 


“ 请 求 /应 答 的 交易 方式 。 








Netperf 常 用 参数 如 下 : 








-H: 指定 netserver 的 server IP 地 址 。 


Dd: 指定 测试 的 时 间 长 度 ， 单 位 为 秒 。 


toi 指定 进行 的 测试 类 型 ， 包 括 TCP_STREAM、UDP_STREAM、TCP_RR、TCP_CRR、UDP_RR 等 。 








每 个 测试 项 的 意义 如 表 15-2 所 示 。 


表 15-2 ”NetperfTCP 和 UDP 测试 类 型 


Netperf 默认 情况 下 进行 TCP 批 量 传输 ， 即 -LTCP_STREAM。 测 试 过 程 中 ，netperf [5] 


TCP STREAM 
e netserver 发 送 批量 的 TCP 数据 分 组 ， 以 确定 数据 传输 过 程 中 的 在 吐 量 


UDP STREAM 用 来 测试 进行 UDP 批量 传输 时 的 网 络 性 能 。 需 要 特别 注意 的 是 ， 此 时 测试 


UDP_STREAM | 分 组 的 大 小 不 得 大 于 socket 的 发 送 与 接收 缓冲 大 小 ， 否 则 ，netperf 会 报错 
TCP_RR 方式 的 测试 对 象 是 多 次 TCP Request 和 Response 的 交易 过 
TCP RR 一 个 TCP 连接 中 ， 这 种 模式 常常 出 现在 数据 库 应 用 中 。 数 据 库 的 Client 程序 与 Server 程序 建 
立 一 个 TCP 连接 以 后 ， 就 在 这 个 连接 中 传送 数据 库 的 多 次 交易 过 程 
与 TCP_RR 不 同 ，TCP_CRR 为 每 次 交易 建立 一 个 新 的 TCP 连接 ， 
TCP_CRR HTTP， 每 次 HITP 交易 是 在 一 条 单独 的 TCP 连接 中 进行 的 。 因 此 ， 由 于 需要 不 停 地 建立 新 
的 TCP 连接。 并 且 在 交易 结束 后 拆除 TCP 连接 ， 交 易 率 一 定 会 受到 很 大 的 影响 
UB mh UDP RR 方式 使 用 UDP 分 组 进行 request/response 的 交易 过 程 。 由 于 没有 TCP 连接 所 带 来 
一 的 负担 ， 所 以 我 们 推测 交易 率 一 定 会 有 相应 的 提升 
(2) 测试 方法 


Netperf 支 持 多 机 测试 。 进 行 测试 时 ， 一 台 运 行 服务 器 端 程序 netserver， 另 一 台 或 者 多 台 服 务 器 运行 客户 端 程序 netclient/netperf.。 下 面 介 绍 要 测试 的 内 容 。 
Q@TCP 吞 吐 量 测试 

Server 端 运行 hetserver。 

Client 端 运行 netclient-H server ip-| 60-t TCP STREAM, 

@TCP 交 易 测试 

Netperf 2.x x 版 本 只 支持 每 个 实例 一 个 线程 。 由 于 一 个 线程 产生 的 TCP 交 易 远 远 达 不 到 系统 瓶颈 ， 需 要 开 多 个 netperf 实 例 ， 并 将 每 个 实例 的 结果 相 加 。 

(3) 测试 示例 


@Windows 服 务 端 脚本 netserver.bat。 





Gecho off 
for /L %%i in (12865 1 12884) do start netserver.exe -p $$i 





@Linux 物 理 机 客户 端 脚 本 。 





# cat netperf.sh 

#!/bin/bash 

for port in $(seq 12865 1 12884) 
do 


netperf -t TCP RR -H server ip -1 60 -p $port & 
done 








4 磁盘/O 测 试 工具 与 测试 方法 

磁盘 /O 测 试 需要 测试 以 下 两 个 方面 : 

“ 基准 测试 : 主要 是 比较 通用 的 测试 ， 如 经 常 被 提 到 的 4 区 随机 写 的 IOPS。 

“ 业务 模型 测试 : 主要 是 自己 的 业务 磁盘 读 / 写 的 1/O 〇 模型 是 什么 ， 然 后 根据 自己 的 业务 模型 进行 测试 ， 可 以 做 到 有 的 放 矢 ， 也 便于 根据 测试 结果 进行 调 优 。 


另外 ，Cache 对 MO 速度 的 影响 极 大 。 在 虚拟 化 环境 中 ， 一 个 虚拟 机 中 的 MO 性 能 受到 诸多 层 Cache 的 影响 ， 包 括 : 








* Guest OS 的 buffer cache。 





- Host OS 的 buffer cacheo 


过 程 ， 但 是 它们 发 生 在 同 


最 由 型 的 应 用 就 是 


* RAID 卡 的 Cache 大 小 和 模式 。 


- 物理 硬盘 的 Cache 和 模式 。 


外 二 


1/O 的 测试 数值 比较 ， 是 要 以 保证 虚拟 机 OS 以 下 数据 一 致 性 为 前 提 的 。 如 果 没 有 这 个 前 提 ， 比 较 一 个 带 32MB Cache 的 消费 级 SATA 盘 和 一 个 Cache 被 禁用 的 服务 器 专用 SAS 盘 的 随机 写 性 能 ， 是 没有 意义 


针对 生产 环境 ， 建 议 采 取 以 下 配置 : 
- 禁用 物理 硬盘 的 Cache。 
< RAID 卡 如 没有 电池 ， 不 要 启用 writeback caches 


- 虚拟 机 硬盘 模式 设 为 writethrough 或 者 direct io 模式 ， 以 保证 数据 一 致 性 。 





为 了 使 测试 结果 有 参考 意义 ， 测 试 环境 的 软 硬 件 的 配置 信息 和 cache 模 式 必 须 和 测试 结果 一 起 提供 。 表 15-3 所 示 是 一 个 实际 测试 环境 的 例子 。 


表 15-3 测试 环境 配置 样 表 


服务 器 型 号 HP DL380G7 
CPU 2 x XEON 5620 
内 存 24GB 
RAID 卡 Cache 512MB, '[Hiil, write back mode 
fui Bk 146GB, 1500/4, SAS 磁盘 8 Ik 
RAID 设置 Arrayl: 4HD Raidl0; Array2: 4HD Raid5 
Host OS CentOS 5.4 64 位 
Hypervisor KVMS3 


vda: 文件 ，write through mode 


vdb: lvm, direct 10 (cache-none) 


虚拟 机 硬盘 模式 


























宿主 机 的 裸 VO 性 能 测试 ， 由 于 宿主 机 一 般 内 存 都 比较 大 (16GB 甚 至 更 大 ) ， 测 试 时 易 采 用 directIO 的 方式 ， 以 消除 宿主 机 系统 buffer cache 的 影响 。 

















磁盘 测试 MO 建议 使 用 以 下 测试 用 例 : 











“ 大 块 连续 读 一 一 1024KB， 顺 序 读 。 
: 大 块 连续 写 一 一 1024KB， 顺 序 写 。 
“ 小 块 随机 读 一 一 4KB， 随 机 读 。 
“ 小 块 随机 写 一 一 4KB， 随 机 写 。 


- 业务 模拟 测试 用 例 趾 : 20%3KB， 顺 序 写 ，79%8KB 随 机 写 8KB，1% 随 机 读 。 




















笔者 常用 的 磁盘 /O 测 试 工具 主要 有 四 款 ， 下 面 进行 介绍 。 























(1) fio 


1) fio 介 绍 。 

















fio 的 官方 网 址 是 http://mac.freecode.com/projects/fio， 它 是 一 款 用 于 基准 和 压力 测试 的 VO 工 具 ， 最 新 版 本 是 fio-2.1.10。fio 支 持 19 不 同 的 MO 引 警 (sync、mmap、libaio、posixaio、SG v3, 
splice、null、network、syslet、guasi、solarisaio 等 ) 。 操 作 系 统 支持 方面 ，fio 支 持 Linux、FreeBSD、NetBSD、OpenBSD、OS X、Opensolaris、AIX、HP-UX、Android 和 Windows 等 众多 操作 系 
统 。 在 Linux 系 统 上 ，fio 支 持 测试 Linux 系 统 的 MO 优先 级 、MO 速 率 、 子 线程 等 一 些 比较 新 的 内 核 特 性 。 











fio 不 仅 支 持 裸 设 备 也 支持 文件 系统 性 能 测试 ，fio 还 支持 文本 方式 的 脚本 ， 通 过 脚本 可 以 实现 批量 测试 。 
fio 的 特点 主要 如 下 : 

. 跨 平台 ， 支 持 UNIX、Linux、Windows 系 统 。 

“支持 多 种 I/ 〇 引擎 。 

“ 支持 命令 行 和 脚本 。 

“ 支持 对 CPU、 内 存 、 线 程 、I/O 〇 非常 细致 的 配置 。 

“支持 非常 丰富 的 测试 类 型 ， 有 非常 细致 的 参数 ， 使 用 简单 ， 功 能 强大 。 


fio 的 参数 主要 包含 以 下 基本 类 型 : 


d 


"I/O 类型: 顺序 读 / 写 、 随 机 读 / 写 、 混 合 读 / 写 等 。 


CRAD: 测试 时 使 用 的 块 大 小 ， 可 以 是 一 个 数值 ， 也 可 以 是 一 个 范围 。 


DOO Ko: 读 / 写 数据 的 大 小 。 

"I/O 队列 深度 : 配置 队列 深度 数值 。 
IORA: 是 否 打开 文件 系统 的 缓存 。 
“ 文件 数量 : 同时 读 / 写 几 个 文件 。 

' 线程 数量 : 同时 运行 几 个 线程 。 


2) fio 安 装 。 




















centos 如 果 安 装 了 epel 源 ， 通 过 yum 可 以 直接 安装 ， 也 可 以 自己 编译 安装 : 




















tar -zxvf fio-x.x.x.tar.gz 
cd fio-x.x.x 

make 

make install 








3) fio 参 数 使 














fio 非 常 强大 ， 参 数 也 非常 多 ， 下 面 按照 不 同 的 类 型 ， 介 绍 详细 的 参数 。 

















@fio 配 置 相关 的 参数 及 含义 如 下 : 
--debug: 调试 模式 。 

--version: 显示 版 本 信息 。 

@ 测 试 任务 相关 的 参数 及 含义 如 下 : 


--output- : 将 测试 结果 输出 到 文件 ， 等 号 后 是 文件 名 字 。 





--runtime=: 限制 运行 时 间 ， 单 位 为 秒 。 























--name=: 字符 串 ， 测 试 项 目 名 称 。 


--descriptionz: 字符 串 ， 测 试 项 目 描述 。 








--filename=: 测试 文件 ， 也 可 以 指定 到 裸 设 备 上 。 


--size=: 测试 文件 大 小 。 











--filesizez : 单独 的 文件 大 小 ， 也 可 以 是 一 个 范围 ，fio 在 设 定 的 size 之 内 随机 地 选择 大 小 ， 如 果 没有 指定 ， 则 每 个 子 文件 大 小 相同 。 











@ 读 / 写 方式 参数 及 合 义 如 下 : 


--readwritez : 测试 读 / 写 方式 ， 可 以 是 下 面 的 选项 : 





' Read: 顺序 读 。 


| Write: 顺序 写 。 


' Trim: 顺序 tim， 只 支持 Linux 块 设备 。 


: Randread: 随机 读 。 


- Randwtite: 随机 写 。 


- Randtrim: 随机 ttim， 只 支持 Linux 块 设备 。 


| gw, readnwrite: 混合 读 / 写 。 


“ randrw: 随机 混合 读 / 写 。 











为 速度 可 能 不 一 样 。 可 以 在 测试 的 指定 一 个 数字 : 





@ 混 合 读 写 参数 。 如 果 是 混合 读 / 写 ， 则 默认 是 50/50 ( 即 50% 读 加 50% 的 写 ) ， 对 于 特定 的 类 型 ， 结 果 会 有 些 出 入 ， 


rwmixwrite=20: 混合 读 写 ， 写 占 20%。 
文件 系统 缓存 方式 参数 。 


direct= : 选 型 可 以 是 1 或 者 0，1 为 绕 过 文件 系统 的 缓存 ，0 为 使 

















文件 系统 的 缓存 ; 





@ 测 试 块 大 小 参数 及 含义 如 下 : 


* --blocksize= 或 者 --bs=: 测试 的 时 候 读 写 块 大 小 ， 可 以 是 4 多 、8K、1M 等 ; 


“ -bssplit=: 字符 串 ， 需 要 测试 混合 块 大 小 的 时 候 使 用 ，bssplit 参 数 读 写 的 时 候 都 可 以 使 用 。 可 以 参考 如 下 的 格式 : 


* -bssplit=4k/10: 64k/50: 32k/40, 





LXAK 51070, 64K 450%, 32k 54096; 


- 不 指定 百分比 ，fio 会 平均 分 配 ， 比 如 : —bssplit24k/50: 1k/: 32k/, 824K 55090, 1K, 32K% 525%; 


@ 运 行 相关 参数 及 含义 如 下 : 


:-maxjob-: 运行 的 最 高 线程 。 


* —zero buffers: 如 果 使 用 这 个 参数 ，fio 会 初始 化 IO 缓存 ， 并 默认 使 用 随机 的 数据 填 满 缓存 。 
“ --refill_buffers: 强制 重新 填写 读 / 写 缓存 、 

* -iodepthzio: 队列 深度 ， 默 认 是 1。 

“ --numjobs=: 线程 数量 。 

“ -group_treporting: 汇总 每 个 进程 的 信息 。 

“ -lockmem=: 固件 测试 的 时 候 内 存 大 小 ， 如 2GB。 


: --nrfiles=: 每 个 进程 生成 文件 的 数量 ， 比 如 8。 











4) fio 使 用 案例 : 











文件 系统 4K 顺 序 读 测 试 : 





fio --filename-/tmp/test --direct-1 --rw-read --bs-4k --size-15G --numjobs-64 
--runtime-300 --group reporting --name-test-read 





文件 系统 4K 随 机 写 测试 : 





fio --filename-/tmp/test --direct=1 --rw-randwrite --bs-4k --size-15G 
--numjobs-64 --runtime-300 --group reporting --name-test-read 





裸 设 备 4KJ 硕 序 写 测试 : 





fio --filename-/dev/sdb --direct-1 --rw-write --bs-4k --size-15G --numjobs-64 
--runtime-300 --group reporting --name-test-read 

















fio 的 输出 非常 详细 ， 图 15-5 所 示 为 4K 随 机 写 的 一 个 测试 的 结果 ， 可 以 看 到 有 写 吞吐 、IOPSs 指 标 ， 还 有 CPU 利用 率 、 磁 盘 状 态 等 指标 。 











fio --filename-/test --direct-1 --rw-randwrite --bs=4dk --size-1G --numjobs-64 V 
--runtime-300 --group reporting --name-test-randwrite 


write: i0-2850.2MB, bw-9726.1KB/s, iops-2431 , runt-30004d8msec 

clat (usec): min=159 , max-448315 , avg-410.20, stdev-1208.19 

lat (usec): min=159 , max-448315 , avg-411.15, stdev-1208. 27 

clat percentiles (usec): 
1.00th=[ 203], 5.00th-[ 278], 10.00th-[ 326], 20.00th-[ 346], 
30.00th-[ 366], 40.00th-[ 386], 50.00th-[ 402], 60.00th-[ 418], 
70.00th-[ 434], 80.00th-[ 454], 90.00th=[ 486], 95.00th-[ 516], 
99.00th-[ 724], 99.50th-[ 1032], 99.90th-[ 1368], 99.95th-[ 2224], 
99. 99th- [ 8256] 

bw (KB/s) : min- 3, max- 667, per=1. 57%, avg-152.30, stdev-27.63 

lat (usec) : 250-3.92X, 500=89.07%, 750-6.14*, 1000-0. 32% 

lat (msec) : 2=0.49%, 4-0.03*, 10-0.02X, 20-0.01*, 50-20.019* 

lat (msec) : 500=0. 01% 

: usr=0. 04%, sys=0.23%, ctx=1548182, majf=0, minf=1844 


cpu 

IÒ depths : 1=100. 0%, 2=0. 0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0. 0% 
submit : 0=0.0%, 4=100. 0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0% 
complete : 0=0.0%, 4=100. 0%, 8=0.0%, 16=0.0%, 32-0.0*, 64=0.0%, >=64=0. 0% 
issued : total=r=0/w=729637/d=0, short-r-0/w-0/d-0 


Run status group O (all jobs): 
WRITE: io-2850.2MB, aggrb-9726KB/s, minb-9726KB/s, maxb-9T726KB/s, mint-300048msec, maxt-300048msec 


Disk stats (read/write): 
dm-0: ios-0/766673, merge-0/0, ticks-0/341324, in  queue-341316, util=86. 15%, aggrios-0/731075, 
hzgrmerge-0/35722, aggrticks-0/268135, aggrin queue-267337, aggrutil-85. 33% 
vda: ios-0/731075, merge-0/35722, ticks-0/268135, in queue-267337, util=85. 33% 





图 15-5 fio 测 试 结果 











fio 也 可 以 将 测试 用 例 写成 脚本 ， 通 过 运行 脚本 ， 完 成 多 项 测试 任务 。 














; — start —— 
[global] 
[random-writers 
rw-randwrite 
bs-4K 

direct-1 
Size=30G 
numjobs-63 
[random-read] 
rw-randread 





size-30G 
numjobs-63 
; end «- 





fio 的 howto 参 考 文档 对 于 fio 的 使 用 有 非常 详细 的 描述 ， 读 者 可 以 详细 阅读 ， 连 接地 址 如 下 : 


http://www.bluestop.org/fio/HOWTO.txt, 
(2) lometer 
1) lometer 介 绍 。 


lometer (官方 网 址 是 http://www.iometer.org/， 直 接 下 载 安 装 就 可 以 使 用 ) 是 一 个 测试 系统 和 集群 系统 下 的 Il/O 子 系统 性 能 的 工具 。lometer 既 是 工作 负载 生成 器 ( 它 可 以 进行 输入 输出 操作 ， 以 便 





增加 系统 的 负荷 ) ， 也 是 一 个 测量 工具 ( 它 检查 并 且 记 录 I/O 操 作 的 性 能 和 对 系统 的 影响 ) 。 它 可 以 被 配置 为 模拟 任何 程序 或 者 基准 测试 程序 的 磁盘 和 网 络 /O 的 负载 ， 或 者 用 来 产生 整个 综合 的 MO 负载 ， 
也 可 以 用 来 产生 并 测量 单 系统 或 者 多 系统 (网络 ) 的 负载 。 








lometer 支 持 测试 以 下 内 容 : 
- 磁盘 和 网 络 控制 器 性 能 。 
“ 带宽 延 时 能 力 。 

:网络 吞吐 。 

“总线 性能。 

< 系统 级 别 的 磁盘 性 能 。 

< 系统 级 别 的 网 络 性 能 。 


2) lometer 使 用 。 





笔者 主要 使 用 lometer 测 试 Windows 系 统 的 磁盘 性 能 ，lometer 测 试 Linux 系 统 |/O 漂 移 比 较 严 重 ，lometer 一 个 非常 好 的 功能 是 支持 多 机 联合 测试 。 在 被 测试 的 系统 上 执行 如 下 命令 : 





dynamo -i local ip -m manager ip - n manager name 





可 以 连接 到 一 台 已 经 运行 lometer 的 系统 ， 然 后 可 以 通过 管理 机 同时 给 几 个 测试 机 发 布 测试 指令 





测试 时 使 用 1 个 Worker，Disk Targets 选 择 测 试 的 磁盘 ， 删 除 该 盘 根 目录 下 的 iobw.tst 文 件 (如 果 已 经 存在 ) ，Access Specifications 按 照 如 下 配置 ， 测 试 结果 在 Results Display 中 显示 。 
具体 参数 设置 如 下 : 

* Worker: 1. 

* Maximum Disk size: 10240 sectors; 

: Outstanding IO: 队列 深度 1~128 循 环 加 载 。 

“ 4 区 顺序 读 。 

“ 配置 测试 时 长 : 5 分 钟 。 


如 图 15-6 所 示 为 Ilometer 测 试 Worker 设 置 ， 选 择 Worker1， 文 件 写 到 E: 。 


EEE [2| ^|e|&| » | a& | "| 


Disk Targets | Network Targets | Access Specifications | Results Display | Test Setup | 
Targets 





All Managers 


1 XIADLI-PC : Maximum Disk Size 
we [ant 


S Worker 2 


区 一 | Worker 3 Starting Disk Sector 
i-e) Worker 4 [o 


# of Üutstanding I/0s 

[za ^ per 

Use Fixed Seed 

F[ rie Seed | 
Test Connection Rate 

C] [ za Transactions per | 
Write IO Data Pattern 











15-6 Ilometer3t] 试 Worker 设 置 











如 图 15-7 所 示 为 lometer 测 试 内 容 设 置 ， 选 择 4K 顺 序 读 。 


OMB 1KiB DB 100 100 sector 


Transfer Request Size Percent of Azcess Specification Percent Read/Write Distribution 


[o 4 j ES [o E ü 
% 


Megabytes Kilobytes Bytes 100 Percent write 


Percent Random? Sequential Distribu:ion Burstiness Align |/0s on 


站 一 一 TidrisfelDzlay Buist Lerigthi C Request Size Roundarie: 
100% 0: | [o ms I v. {®© Sector Boundaries 
Sequenlial Random C [p a [za [512 4 


Megabytes Kilobytes Bytes 
Reply Size 


(* NoReply 
[^ [o zi E - [o 4 
Mega»ytes Kilobytes Bytes Cancel | 


图 15-7 Iometer 测 试 内 容 设 置 








如 图 15-8 所 示 为 Ilometer 测 斌 配置， 选择 一 次 跑 完 所 有 测试 。 


Disk Targets | Network Targets | Access Specifications | Results Display Test Setup | 


-AA All Managers Test 
E fl) XIAOLI-PC | 
- Worker 1 
i-e Worker 2 Run Time 


Ramp Up Time Number of Workers to Spawn Automatica 
| [o Hours lo Seconds Disk Network 
Eg Worker 4 | 


5 Minutes (* # of CPU: C # of CPV: 


Record Results P~ b 
[o Seconds All X | LA E 


Targets * of Outstanding I/Os 


Start [ Start [ End |32 
Step fi Power E 
[Linear Stepping -] [Linear Stepping -] [Exponential Stepp: -] 





图 15-8 ”Iometer 测 试 配置 


如 图 15-9 所 示 为 Ilometer 测 试 结果 展示 配置 ， 选 择 每 秒 刷 新 一 次 。 





如 图 15-10 所 示 为 测试 结果 ， 为 Excel 格 式 。 





Test Type 





Disk Targets | Network Targets | Access Specifications Results Display | Test Setup | 


Results Since Update Frequency (seconds) 
Drag managers and workers Record last C Start o£ T 
from the Topology window [^ update results 
to the progress bar of your to file C Last Updat， 


Display 


All Managers 3121. T6 10000 
Total I/Os per Second EREZSINGMS 2] 


All Managers 12.79 MBPS (12.19 MiBPS) 100 
Total MBs per Second (Decind EMI 2] 

All Managers 41.0781 100 
Average I/O Response Time vj DEED 2] 

All Managers 834. 5636 1000 
Tuina 7/0 tense ro od MM MR M REN — | 


All Managers 11.17 € 100 % 
$ CPU Utilization (tota) | 2] 
All Managers 0 0 
Total Frror Count | D| 


[Run remaini g: 268 sec |Run 1 of 1 A 


图 15-9 ”Iometer 测 试 实 时 结果 显示 


Test Description 








Version 














Access specifications 





default assignment 





Access specification name 


0 
% of size % reads * random 




















Target Name Access Specification Name # Managers 





All 4 KiB; 100% Read; 0% random $ 





XIAOLI-PC 4 KiB; 100% Read; 0% random 





CPU 0 





CPU 1 





CPU 2 





CPU 3 








Worker 1 100% Read; 0% random 





(3) lOzone 


1) IOzone 介 绍 。 

















E: "^ 


图 15-10 ”Iometer 测 试 结 果 文 件 





lOzone (http://www.iozone.org/) 是 针对 文件 系统 的 性 能 测试 工具 。1Ozone 的 一 个 特色 是 测试 结果 可 以 是 Execl 格 式 ， 并 且 可 以 画 出 非常 直观 的 三 维 测试 图 ， 如 图 15-11 所 示 ， 这 样 磁 盘 VO 各 方面 
的 性 能 就 非常 直观 ， 有 利于 找 出 系统 的 优势 和 瓶颈 点 。 但 美中不足 的 是 画图 的 脚本 是 要 单独 收费 的 。 























Buffercache effect 


CPU Data cache 


8240000-260000 
1220000-240000 

















图 15-11 IOzone 测 试 结果 的 展示 图 








2) IOzone 安 装 使 用 。 














1Ozone 需 要 通过 编译 的 方式 进行 安装 ， 不 支持 裸 设 备 的 测试 。 





wget http:// www.iozone.org/src/current/iozone*.tar 
tar xvf iozone*.tar 

cd iozone*/src/current/ 

make linux-AMD64 

















1Ozone 可 以 测试 顺序 和 随机 的 文件 MO 性 能 。 在 命令 行 上 使 用 -o 参 数 ， 可 以 使 测试 工作 在 SYNC 模 式 上 。 命 令 输出 结果 中 的 rewrite 指 标 可 近似 看 做 磁盘 的 IOPS 值 。 





./iozone -i 0 -i 1 -r 4K -s 1G -o -I -f /test 





参数 说 明 如 下 : 

Dd: 后 面 加 数字 ， 表 示 测 试 内 容 ， 范 围 为 0~12， 常 用 的 有 3 项 ，0= 写 或 者 重 写 ，1= 读 或 者 重读 ，2= 随 机 读 写 ，0 选 型 是 必需 的 。 
Dor 测试 块 大 小 。 

ts 测试 文件 大 小 。 

--o: XURO sync Ae 


DE 测试 文件 路 径 。 


H 


: 关闭 文件 系统 缓存 。 


输出 结果 如 下 : 





Iozone: Performance Test of File I/O 
Version $Revision: 3.429 $ 
Compiled for 64 bit mode. 
Build: linux-AMD64 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Record Size 4 kB 
File size set to 1048576 kB 
SYNC Mode. 
O DIRECT feature enabled 
Command line used: ./iozone -i 0 -i 1 -r 4K -s 1G -o -I -f /test 
Output is in kBytes/sec 
Time Resolution - 0.000001 seconds. 
Processor cache size set to 1024 kBytes. 
Processor cache line size set to 32 bytes. 
File stride size set to 17 * record size. 
random random 
kB reclen write rewrite read reread read write 
1048576 4 1988 4885 10498 10944 





(4) dd 命令 






































dd 是 系统 自 带 的 命令 ， 不 需要 单独 安装 ， 使 用 非常 方便 ， 但 是 只 能 测试 顺序 /O 的 性 能 。 采 用 oflag 或 者 iflag 可 以 指定 direct/sync/dsync 模 式 。 例 如 ， 下 | 
能 (directio 模 式 ) 。 























回 











的 命令 测试 了 4K 的 块 大 小 下 文件 的 顺序 写 性 





dd if=/dev/zero of-/foo/test.file bs-4k count-10000 oflag-direct 





[1] 仅仅 是 一 个 例子 ， 时 间 情 况 请 读者 根据 自己 的 时 间 情 况 来 确定 合适 的 读 写 混合 比例 。 
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本 章 介绍 了 宿主 机 CPU、 内 存 、 磁 盘 、RAID 卡 、 网 卡 的 选 型 。 另 外 ， 宿 主机 因为 可 靠 性 要 求 比较 高 ， 除 了 选择 配置 ， 对 服务 器 的 品牌 型 号 也 要 注意 ， 尽 量 选择 主流 品牌 ， 主 流 品牌 和 非 主流 品牌 的 稳定 
性 从 笔者 的 实践 来 看 ， 差 距 比较 大 。 即 便 主流 品牌 也 要 选择 企业 级 的 型 号 ， 一 些 入 门 级 的 服务 器 型 号 建议 不 要 选 做 宿主 机 。 













































































本 章 还 介绍 了 宿主 机 的 性 能 测试 方法 ， 性 能 测试 方法 对 于 虚拟 机 的 基准 测试 同样 适用 ， 下 一 章 为 读者 介绍 虚拟 机 的 镜像 制作 。 

















第 16 章 ”虚拟 机 镜像 制作 、 配 置 与 测试 














本 章 为 读者 介绍 虚拟 机 模板 镜像 的 制作 方法 ， 虚 拟 机 是 通过 模板 镜像 进行 大 量 的 复制 ， 因 此 ， 制 作 镜 像 的 目的 即 要 求 方便 地 进行 大 量 复制 ， 又 要 求 保证 复制 出 虚拟 机 的 稳定 性 。 虚 拟 机 模板 镜像 的 系 
统 、 驱 动 程序 版 本 都 要 经 过 实际 的 测试 ， 以 保证 通过 镜像 复制 的 虚拟 机 能 大 规模 部 署 ， 高 效 、 稳 定 地 运行 。 本 章 向 读者 介绍 如 何 制作 、 配 置 Windows、Linux 虚 拟 机 ， 以 及 虚拟 机 模板 镜像 的 测试 注意 点 。 

















16.1 ”Windows 虚 拟 机 制作 方法 








目前 ， 在 生产 环境 使 用 的 Windows 版 本 主要 是 Windows Server 2008 R2 及 Windows Server 2012 R2， 本 章 以 Windows Server 2008 R 为 例 说 明 Windows 系 统 镜像 的 制作 方法 ，Windows Server 
2012 R2 制 作 方 法 非常 类 似 ， 本 书 就 不 介绍 了 。 








本 章 也 会 简单 介绍 Windows Server 2003 镜 像 的 制作 注意 点 。 需 要 说 明 的 是 ， 最 新 一 代 服 务 器 已 经 不 提供 对 Windows Server 2003 驱 动 的 支持 ,但 是 虚拟 化 对 Windows Server 2003 支 持 得 很 好 。 如 果 
有 老 的 业务 需要 使 用 Windows Server 2003， 通 过 虚拟 化 提供 支持 也 是 很 好 的 解决 方案 。 


























16.1.1 Windows 镜 像 制 作 


1.Windows 虚 拟 机 的 安装 


(1) 准备 操作 系统 SO 文件 

















建议 使 用 正版 Windows 1SO 镜 像 ， 生 产 环境 不 要 使 用 非 正常 渠道 获得 的 Windows 1SO 文 件 。 

















(2) Windows 虚 拟 机 的 配置 
Windows 虚 拟 机 建议 根据 表 16-1 来 配置 。 


表 16-1 Windows 镜 像 资源 分 配 


网 下 方式 
Windows 2012 系列 2048 Virtio 





生成 镜像 的 命令 如 下 : 





qemu-img create -f qcow2 sys.img -opreallocation-metadata 100G 


























为 了 传输 管理 方便 ， 虚 拟 机 镜像 格式 建议 使 用 qcow2 格 式 ， 要 加 上 opreallocation=metadata 参 数 ， 或 者 在 virt-install 命 令 参 数 中 指明 是 qcow2 格 式 ， 否 则 ， 使 用 virt-install 命 令 安装 完成 后 虚拟 机 磁 
盘 镜像 会 变 为 raw 格 式 。 

















1) 关于 Windows 虚 拟 机 镜像 大 小 。 关 于 镜像 大 小 笔者 也 有 一 个 认识 过 程 。 最 开始 的 时 候 ， 是 制作 一 个 非常 小 的 镜像 ， 生 成 虚拟 机 时 ， 通 过 virt-resize 命 令 进行 扩展 。 这 样 做 的 好 处 是 因为 镜像 小 ， 传 输 
复制 方便 ， 尤 其 是 在 笔者 刚 开始 部 署 虚拟 化 的 时 候 ， 大 量 使 用 的 是 Windows Server 2003 系 统 ， 镜 像 小 有 利于 快速 扩展 。 但 是 随 着 Windows Server 2008 R2 的 大 量 开始 使 用 ， 使 用 扩展 镜像 的 方法 遇 到 两 
个 问题 : 
























































- 扩展 过 程 比 Windows Server 2003 慢 很 多 。 
“ 因为 做 了 镜像 扩展 ， 第 二 次 重启 的 时 候 要 做 文件 系统 检查 ，Windows Server 2008 R2 的 文件 数目 非常 多 ， 导 致 文件 系统 检查 时 时 间 很 长 ， 有 时 候 长 达 几 个 小 时 。 


所 以 ， 到 了 Windows Server 2008 R2 时 代 ， 笔 者 改变 做 了 做 法 ， 在 生成 虚拟 机 时 ， 直 接 将 镜像 复制 ， 不 再 进行 磁盘 和 文件 系统 的 扩展 。 这 样 做 虽然 笨 牧 了 灵活 性 ， 但 是 生成 虚拟 机 时 速度 要 快 很 多 ， 
并 且 生 成 的 虚拟 机 第 二 次 重启 时 ， 没 有 文件 系统 长 时 间 检 查 的 问题 。 


Oez 


笔者 经 过 研究 测试 ， 目 前 国内 公有 云 大 部 分 也 都 是 通过 复制 镜像 的 方式 进行 部 署 的 。 





























2) 关于 Windows 系 统 网 卡 驱动 的 说 明 。2014 年 上 半年 以 前 ， 笔 者 的 生产 环境 的 Windows 虚 拟 机 系统 网 卡 使 用 e1000 的 网 卡 ， 因 为 使 用 Virtio 的 网 卡 ， 在 Windows 系 统 上 一 直 有 闪 断 的 情况 。 但 是 到 
2014 年 年 底 ， 最 新 发 布 的 Virtio 网 卡 Windows 系 统 驱动 ， 经 过 笔者 在 生产 环境 的 检验 ， 已 经 工作 的 非常 稳定 ， 所 以 ， 笔 者 又 开始 在 生产 环境 使 用 Virtio 网 卡 。 






















































































Ww 


关于 Windows 虚 拟 机 系统 的 磁盘 驱动 。 开 始 安装 系统 的 时 候 ， 建 议 磁盘 驱动 使 用 IDE 方 式 ， 这 样 方便 安装 ， 系 统 安 装 之 后 ， 建 议 将 驱动 更 换 为 Virtio， 因 为 Virtio 性 能 要 好 很 多 ， 具 体 的 操作 方法 在 

















16.2 节 介绍 。 


(3) 安装 虚拟 机 















































安装 虚拟 机 有 多 种 方法 ， 如 使 用 Virt-Manager、virt-install 工 具 ， 也 可 以 通过 事先 定义 xml 文 件 来 安装 虚拟 机 ， 这 里 笔者 使 用 virt-install 命 令 安装 虚拟 机 : 





virt-install V 
--hvm N 
--name windows2008 VN 
--ram 2048 V 
--file-/opt/sys.img \ 
--livecd V 
-—-cdrom /opt/windows/windows2008.iso \ 
--vnc N 
--vncport-5910 











具体 安装 过 程 就 不 详细 介绍 了 ， 但 是 Windows Server 2008 R2 安 装 时 候 的 分 区 需要 注意 ， 因 为 2008 默 认 安 装 时 会 有 一 个 100MB 的 隐藏 分 区 ， 放 一 些 系统 引导 文件 ， 类 似 Linux 系 统 的 boot 分 区 
这 个 分 区 在 调整 分 区 和 文件 系统 的 时 候 经 常 容易 误导 ， 如 果 不 希 望 有 这 个 分 区 ， 可 以 手工 分 区 ， 方 法 如 下 : 












































在 光盘 引导 起 来 之 后 ， 按 Shift+F10 组 合 键 ， 会 出 现 一 个 命令 行 界面 ， 输 入 diskpart 命 令 ， 进 入 Windows 的 命令 行 分 区 模式 ，diskpart 类 似 Linux 下 的 partd 命 令 ， 如 图 16-1 所 示 。 




















Pa. 管理 员 : X: windows Vsystem32|cmd.exe - diskpart 


Microsoft Windows che ZR 6.1.7601] 
X-NSources2diskpart 
Microsoft DiskPart hÆ 6.1.7681 


Copyright «C» 1999-2888 Microsoft Corporation. 
在 计算 机 上 : MINWINPC 


DT 从 onnT> 


Microsoft Corperaticr. 穆 富 所 方 权利 ， 





图 16-1 进入 diskpart 命 令 界面 





输入 list disk 命 令 ， 可 以 看 到 当前 的 磁盘 ， 输 入 select disk 0 命令 ， 选 择 第 一 块 磁盘 ， 如 图 16-2 所 示 。 














输入 create partition primary 命 令 ， 将 所 有 磁盘 空间 划分 为 一 个 大 的 主 分 区 ， 输 入 active 命 令 ， 将 这 个 分 区 激活 ， 如 图 16-3 所 示 。 











Microsoft DiskPart hki 6.1.7681 
Copyright <C> 1999-2008 Microsoft Corporation. 
在 计算 机 上 : MINWINPC 


DISKPRRT? list disk 


状态 AX] | FH Dyn 


188 GB 188 GB 


DISKPRRT? create partition primary 


DiskPart 成 功 地 创建 了 指定 分 


DISKPART> active 
DiskPart J44 RAKAR AEN 


DI SKPART> 


图 16-3 ”使 用 diskpart 命 令 划分 磁盘 分 区 


要 想 了 解 diskpart 命 令 的 详细 使 用 可 以 输入 help 命 令 ， 查 看 帮助 。 分 区 完成 输入 exit 退 出 命令 行 界面 ， 然 后 开始 Windows 系 统 的 安装 ， 到 磁盘 分 区 的 步骤 时 ， 如 图 16-4 所 示 ， 直 接 选择 刚才 手工 的 分 区 
安装 就 可 以 。 





驱动 器 选项 E A) 











图 16-4 Windows 安 装 选择 分 区 
虚拟 机 安装 完成 后 ， 重 要 的 就 是 如 何 配置 虚拟 机 系统 ， 下 面 介 绍 如 何 让 制作 的 虚拟 机 符合 自己 的 业务 需求 。 
2. 配 置 虚拟 机 模板 
(1) 安装 Virtio 驱 动 


KVM 是 使 用 硬件 虚拟 化 辅助 技术 (如 Intel VT-x, AMD-V) 的 虚拟 化 引擎 ， 在 CPU 运行 效率 方面 有 硬件 支持 ， 效 率 是 比较 高 的 。KVM 在 MO 虚 拟 化 方面 ， 传 统 的 方式 是 使 用 QEMU 纯 软件 的 方式 来 模拟 
IO 设备 ， 其 效率 并 不 高 。 在 KVM 中 ， 可 以 在 虚拟 机 中 使 用 半 虚 拟 化 驱动 (Paravirtualized Drivers, PV Drivers) 来 提高 VO 性 能 ， 因 此 ， 在 虚拟 机 的 磁盘 、 网 络 尽量 应 使 用 Virtio 设 备 。 





1) 安装 硬盘 Virtio 驱 动 。 
首先 ， 下 载 硬盘 Virtio 驱 动 ， 下 载 地 址 为 : http://www.linux-kvm.org/page/WindowsGuest Drivers/Download Drivers, 


然后 ， 新 增 一 块 临时 硬盘 ， 并 将 其 驱动 更 新 为 SCSI 模 式 : 





qemu-img create -f qcow2 tmp.img 1G 
virsh attach-disk vm --source /kvm/tmp.img --target vdb --persistent 





通过 热 插 拔 方式 动态 增加 一 块 硬盘 后 ， 会 在 资源 管理 器 里 提示 发 现 新 的 硬盘 。 此 时 ， 将 下 载 好 的 virto 驱 动 挂 载 到 虚拟 机 。 打 开 后 会 发 现 其 包括 多 个 文件 夹 ， 其 中 几 个 文件 夹 对 应 的 系统 是 wnet 为 
Windows 2003 Server，wlh 为 Windows Server 2008。 按 照 目前 使 用 的 Windows 系 统 ， 安 装 相应 目录 中 的 驱动 就 行 了 。 


安装 完成 后 ， 还 需要 更 新 虚拟 机 xml 文 件 中 有 关系 统 盘 的 配置 。 使 用 virsh edit vmname 命 令 ， 进 入 虚拟 机 xml 编 辑 模式 ， 找 到 如 下 代码 行 : 





<source file-'/kvm/sys.img'/» 
«target dev-'hda' bus-'ide'/» 





将 其 修改 为 : 





<source file-'/kvm/sys.img'/» 
«target dev-'vda' bus-'virtio'/» 





参照 上 面 的 配置 修改 其 他 硬盘 的 xml 部 分 ， 改 完 后 关闭 虚拟 机 并 启动 。 在 设备 管理 器 会 发 现 原 硬盘 项 已 变 成 SCS|。 
2) 安装 网 卡 Virtio 驱 动 。 


首先 ， 手 动 通过 热 插 拔 方式 增加 一 块 临 时 网 卡 : 





virsh attach-interface vm --type bridge --source brl --model virtio 





在 设备 管理 器 中 可 以 看 到 新 加 的 网 卡 ， 然 后 为 新 的 网 卡 安装 Virtio 驱 动 即 可 ， 方 法 同 Virtio 磁 盘 的 安装 方法 。 新 增 网 卡 的 xm 配置 如 下 : 





«interface type-'bridge 

«mac address 32 cde ILrafisec ddr» 

«source bridge-'brl'/» 

«target dev-'vnet3'/» 

«model type-'Virtio'/» 

«alias name-'net2'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x08' function-'0x0'/» 
«/interface» 








在 安装 完 网 卡 Virtio 驱 动 后 ， 参 照 上 面 的 配置 修改 其 他 网 卡 的 xml 文 件 ， 重 启 虚 拟 机 后 ， 在 设备 管理 器 中 会 要 求 重新 安装 驱动 ， 安 装 即 可 。 


(2) 取消 登录 任务 配置 及 清除 任务 栏 记 录 


























Windows Server 2008 R2 安 装 完成 后 ， 默 认 会 启动 初始 任务 配置 及 服务 器 管理 器 ， 如 图 16-5 和 图 16-6 所 示 ， 为 了 避免 打扰 用 户 ， 勾 选 两 个 界面 的 “登录 时 不 显示 此 窗口 ” 复 选 框 。 


DARAS 


执行 以 下 任务 以 配置 此 服务 器 














e 提供 计算 机 信息 B EIU 
RA 激活 Windows (D) - 没有 激活 





c 设置 时 区 C) : QTrc+08:00) 北 京 ， 重 庆 ， 香 潜 特 别 行政 区 ， 乌 曾 木 齐 
Ais omis on 本 地 连接 : 由 DiCP 分 配 的 IPv4 地 址 ，IPv8 已 启用 


LETS CET 计算 机 完整 名 称 : YIN-UB6C560ASIS 
工作 组 : WORKGROUP 


O 更 新 此 服务 器 IO 更 新 您 的 finaows IUE 





ÅR 启用 自动 更 新 和 反馈 E) 更 新 : AE - 
- Windows 错误 报告 
ERE ERBM 


Qro qm 检查 更 新 的 时 间 :， 从 未 去 装 
已 安装 更 新 : 从 未 去 装 


O 自 定义 此 服务 器 E] eme m 





Iw 登录 时 不 显示 此 窗口 0) 








16-5 ”初始 配置 任务 











a 服务 器 管理 器 QIN-USSCSOOASU MAT T E 1-5. MOT E505: 35:3) 


a 获取 有 关 此 服务 器 状态 的 概述 ， 执 行 首 要 管理 任务 ， 并 添加 或 删除 服务 器 角色 和 功能 。 


^ Bde 服务 器 摘要 帮助 


(^) 计算 机 信息 e 激活 Windows 


计算 机 完整 名 称 : —— WIN-UBECSEOASUS m 更 改 系统 属性 
l Ii oi 
工作 组 : WORKGROUP Gs SERRE 


IFv6 B 
远程 点 面 : 已 禁用 
gngesss cmm 
产品 n: Sites 
[V 登录 时 不 要 显示 此 控制 台中 ) 


(^ 安全 信息 d 转 到 Yindows PANIS 
— iima EE 





图 16-6 ”服务 器 管理 器 








为 了 让 新 建 的 虚拟 机 菜单 栏 没有 残留 的 程序 痕迹 ， 建 议 删 除 菜单 的 历史 程序 启动 记录 ， 操 作 方 法 为 ， 右 击 “ 开 始 ”按钮 ， 在 弹出 的 快捷 菜单 中 选择 “属性 ”命令 弹出 “任务 栏 和 r 开 始 -菜单 属性 ”对 话 
框 ， 选 择 “r 开 始 ! 菜单 ”选项 卡 ， 取 消 勾 选 “ 隐 私 ” 复 选 框 ， 单 击 “ 应 用 ”按钮 ， 再 勾 选 两 个 选项 ， 在 应 用 一 次 ， 如 图 16-7 所 示 。 







































































E agen ri AE 


c. L1 "rr 
lir p UA 
图 16-7 Windows Server2008 R2 菜 单 属性 
(3) 配置 系统 更 新 源 
为 了 提高 同一 数据 中 心 Windows 系 统 补丁 更 新 速度 ， 节 省 带宽 ， 可 以 统一 配置 所 有 Windows 虚 拟 机 到 数据 中 心 内 部 的 更 新 源 进 行 补丁 更 新 。 


1) 配置 更 新 策略 。 操 作 方法 是 ， 同 时 按 Windows 键 和 R 键 ， 在 弹出 的 “运行 ”对 话 框 中 输入 gpedit.msc 并 按 回 车 键 ， 然 后 会 启动 组 策略 编辑 器 ， 如 图 16-8 所 示 ， 在 组 策略 编辑 器 中 依次 选择 “计算 机 
配置 ”一 “管理 模板 ”一 “Windows 组 件 " > "Windows Update”， 在 右边 的 界面 双击 配置 “自动 更 新 ”， 选 择 “ 已 启用 ” 单 选 按钮 ， 配 置 自动 更 新 选择 “2- 通 知 下 载 并 通知 安装 ” ， 还 可 以 根据 需要 定 
义 更 新 的 时 间 。 
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E] 配置 自动 更 新 


下 烈 设置 仅 在 选中 4 时 
需要 和 适用 。 


计划 安装 日 期 ， [0 - 每 天 E 


图 16-8 自动 更 新 属性 

















2) 配置 更 新 源 。 还 是 上 一 步 的 Windows Update 组 策略 ， 双 击 右边 窗 格 中 的 “指定 Intranet Microsoft 更 新 位 置 ”， 如 图 16-9 所 示 ， 如 果 选 择 “ 未 配置 ” 单 选 按钮 ， 此 时 系统 将 通过 连接 微软 站 点 自动 





更 新 。 在 生产 环境 中 一 般 笔 者 都 会 搭建 自动 安装 服务 器 (WSUS) 来 实现 加 快 更 新 速度 和 节省 带宽 的 目的 。 
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图 16-9 Intranet Microsoft 更 新 服务 位 置 属性 
(4) 配置 性 能 计数 器 
在 系统 遇 到 性 能 问题 时 ， 可 以 通过 性 能 计数 器 收集 到 的 数据 方便 地 找 出 瓶颈 所 在 。 建 议 读者 根据 自己 业务 的 需要 ， 添 加 相应 的 性 能 计数 器 。 
添加 性 能 计数 器 的 操作 方法 如 下 : 
1) 同时 按 Windows 键 加 R 键 ， 在 弹出 的 “运行 ”对 话 框 中 输入 命令 : “%windir%\system32\perfmon.msc/s” 并 按 回 车 键 ， 打 开 “ 性 能 监视 器 ”对 话 框 。 


2) 选择 “数据 收集 器 集 ”中 的 “用 户 定义 ”选项 ， 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “新 建 ” 命 令 ， 打开“ 创建 新 的 数据 收集 器 集 ” 对 话 框 ， 选 择 “ 手 动 创建 (高 级 ) ” 单 选 按钮 ， 如 图 16-10 所 示 。 





3) 单 击 “ 下 一 步 ”按钮 ， 选 择 “ 创 建 数据 日 志 ” 单 选 按 钮 并 勾 选 “性 能 计数 器 ” 复 选 框 ， 如 图 16-11 所 示 。 


lO UEMA ERES E o 














图 16-10 创建 新 的 数据 收集 器 集 


O 创建 新 的 数据 收集 回 集 。 
| r- 

















图 16-11 选择 “性 能 计数 器 ” 


4) 根据 需要 添加 响应 的 计数 器 选项 ， 如 图 16-12 所 示 ， 建 议 CPU、 磁 盘 、 网 络 、 内 存 这 些 基本 性 能 选项 都 添加 上 ， 然 后 读者 可 以 根据 自己 的 业务 需要 ， 再 添加 相应 的 性 能 计数 器 。 





< 本 地 计算 机 > 浏览 8)... | Processor 





Processor % Idle Time 


% C1 Time 
* C2 Time 
X C3 Time 
* DPC Time 


% Interrupt Time 
X Privileged Time 








图 16-12 ”添加 性 能 计数 器 


5) 在 下 一 步 的 “日 志 格 式 ”选项 组 中 选择 “逗号 分 隔 ” 的 格式 ， 即 csv 格 式 ， 这 种 格式 方便 脚本 或 者 电子 表格 分 析 ， 如 图 16-13 所 示 。 


TERCVESIES C): 


MProcessor( Total) 


日 志 格式 F): 


示例 间隔 立 ): 单位 tn: RATEM): 
E] hum) ^ Es 
数据 原名 称 E): 


LÀ 


确定 J| má J| mmo J| WB | 








图 16-13 ”性 能 计数 器 日 志 格式 











(5) 添加 SNMP 组 件 


很 多 监控 工具 都 需要 通过 SNMP 来 获取 监控 数据 ， 建 议 安装 SNMP 组 件 。 








安装 方法 如 下 : 在 控制 面板 中 选择 “程序 和 功能 ”， 在 打开 的 窗口 中 选择 “打开 或 关闭 Windows 功 能 ”， 然 后 在 “功能 ”选项 区 域 中 单 击 “ 添 加 功能 ”按钮 ， 如 图 16-14 所 示 。 





ma 服务 器 管理 器 (WIN-USBCSSOASU 





查看 安装 在 此 服务 器 上 功能 的 状态 ， 以 及 添加 或 暗 除 功能 。 


(93: 已 安装 0 个 ( 共 42 个 ) 





图 16-14 添加 功能 


如 图 16-15 所 示 ， 在 打开 的 对 话 框 中 选择 SNMP 组 件 ， 然 后 按照 提示 安装 就 可 以 。 











ES 


(6) 计算 机 


1) 视觉 性 能 优化 。 右 击 桌 面 ， 在 弹出 的 快捷 菜 
项 ”对 话 框 ， 选 择 “ 视 觉 效 果 ” 


jol 





属性 设置 

















选择 要 安装 在 此 服务 器 上 的 一 个 或 多 个 功能 。 
pik Œ): 


Œ [ ] . NET Framework 3.5.1 功能 
C BitLocker 驱动 器 加 密 
C] BranchCache 
L] DirectAccess 管理 控制 台 
C KITTP 代理 上 的 RPC 
C Internet. 存储 命名 服务 器 
[ ] Internet FEIF AÌR 
C LPR 端口 监视 器 
C sax 存储 管理 器 
O surP 服务 器 
日 四 sme 服务 
[V] SP 服务 
ESP YI 提供 程序 
C Telnet 服务 器 
C] Telnet F AÌR 
O TFTF RAR 
C] Windows Biometric Framework 
[C] Windows PowerShell fERÜB[A (I8 (SE) 
E [] Windows Server Backup 功能 
C] Windows Server FRIA 
[ ] Windows TIFF IFilter 


有 关 功 能 的 详细 信息 





图 16-15 “添加 SNMP 组 件 





中 选择 “属性 ”命令 ， 然 后 选择 “高 级 系统 设置 ”选项 ， 在 打开 的 窗口 中 选择 “高 级 ” 









































2) 配置 数据 保护 。 接 上 一 步 ， 在 图 16-16 中 选择 
容 问 题 ， 会 造成 程序 不 能 运行 。 


Q.. 











DEP (Data Execution Prevention， 数 据 执行 保护 ) 


“数据 执行 保护 ”选项 卡 ， 然 后 选择 “ 仅 为 基本 Windows 程 序 和 服务 启动 DEP” 





单 选 按 钮 ， 如 


d: 
使 用 SENP Windows Management 
Instrumentation (AMI) 提供 程序 
使 WII FARENC EREL 
访问 SNMP 信息 。 IENE SR 





E SNMP BEBH 作 为 WMI Er 


选项 卡 ， 然 后 选择 “调整 为 最 佳 性 能 ” 单 选 按钮 ， 如 图 16-16 所 示 。 配 置 这 一 步 的 原因 是 因为 服务 器 系统 主要 是 提供 服务 ， 更 注重 


选项 卡 ， 在 “性 能 ” 选 
































16-17 所 示 ， 


这 么 操作 目的 是 

















项 区 域 单 击 “ 设 置 ”按钮 ， 弹 出 “性 能 选 


为 有 些 程序 和 DEP 有 兼 








， 是 一 套 软 硬件 技术 ， 能 够 在 内 存 上 执行 额外 检查 以 帮助 防止 在 系统 上 运行 恶意 代码 。 笔 者 在 生产 环境 多 次 遇 到 因为 DEP 程 序 不 能 正常 运行 的 情况 。 


要 进行 大 多 数 更 改 ， 您 必须 作为 管理 员 登 录 。 | 选择 您 在 此 计算 机 上 使 用 的 Windows 外 观 和 性 能 设置 。 
性 能 
视觉 效果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 (OE Windows 选择 计算 机 的 最 佳 设置 LO 

O 调整 为 最 佳 外 观 C) 
RAG) © 调整 为 最 佳 性 能 C) 

© Bex C): 

^ 人 

File csi 


用 户 配置 文件 
与 您 登录 有 关 的 桌面 设置 


启动 和 故障 恢复 kero Peek 
系统 启动 、 系 统 失败 和 调试 信 息 O 启用 透明 玻璃 


O 启用 桌面 组 合 

回 任务 栏 和 开始 」 菜单 中 的 动画 
O 拖 动 时 显示 窗口 内 容 

显示 半 透 明 的 选择 长 方形 

O ETARE: 而 不 是 显示 图 标 
回 在 窗口 和 按钮 上 使 用 视觉 样式 




















图 16-16 ”视觉 性 能 优化 


3) 打开 远程 桌面 。 连 接 Windows 虚 拟 机 的 主要 方式 是 通过 远程 桌面 ， 所 以 需要 打开 远程 桌面 ， 操 作 方 法 如 下 : 在 计算 机 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “属性 ”命令 ， 在 弹出 的 对 话 框 中 选择 “ 远 
程 ”选项 卡 ， 如 图 16-18 所 示 ， 选 择 “ 人 允许 运行 任意 版 本 远程 桌面 的 计算 机 连接 ( 较 不 安全 ) ” 单 选 按钮 ， 这 个 选项 兼容 性 比较 好 ， 使 用 Linux 的 rdesktop 套 件 都 可 以 连接 Windows 计 算 机 。 























视觉 效果 | 高 级 。 数据 执行 保护 | 





(= mtus Yindows pam DEF (T) 
之 


f ”为 除 下列 选 定 程序 之 外 的 所 有 程序 和 服务 启用 DEP QD : 


ETE 
您 的 计算 机 处理 器 支持 基于 神 件 的 DEF 。 


有 (E) 





X| 





ABE 取消 应 用 (À) | 








控制 面板 主页 


设备 管理 器 
J AERE 
Q 高 级 系统 设置 





另 请 参阅 
操作 中 心 
Windows Update 








图 16-18 ”配置 数据 保护 (二 ) 
(7) 通过 组 策略 配置 计算 机 启动 执行 脚本 
在 初始 化 虚拟 机 的 过 程 中 ， 用 户 可 能 需要 做 一 些 初始 化 配置 ， 如 用 户 程序 和 配置 文件 的 个 性 化 设置 ， 操 作 步 又 如 下 : 
“ 定制 脚本 名 称 、 配 置 文件 路 径 规范 。 
“ 在 虚拟 机 生成 时 ， 通 过 virt-copy-in 命 令 将 程序 、 相 关 配 置 文件 、 脚 本 复制 到 虚拟 机 中 。 
“ 在 组 策略 中 指定 开机 运行 脚本 (如 果 是 Linux 系 统 则 是 通过 tc.local 指 定 开机 运行 脚本 ) 。 


“ 虚拟 机 第 一 次 启动 执行 脚本 ， 完 成 配置 。 


Q9. 
WITA E HE 4246 3E — 3 9c 9L3E 289 E SAGE AMPRACBUL, HAERERE ERRE, VRARBOEORG Ie, H6 ibi LAGE MERE, SUST VARIUS SUME ARE AER BOX. AE AiEÉdTA 
自动 化 的 运 维 。 


配置 组 策略 开机 运行 脚本 的 操作 步骤 如 下 : 在 开始 菜单 的 运行 对 话 框 中 输入 “gpedit.msc” 命 令 回 车 ， 打 开 组 策略 配置 窗口 。 然 后 在 组 策略 的 “本 地 计算 机 策略 ”下 面 的 “计算 机 配置 ”选项 中 ， 点 
开 “Windows 设 置 ”， 选 择 “ 脚 本 (启动 /关机 ) ”选项 ， 打 开启 动 脚本 配置 界面 ， 然 后 单 击 “ 添 加 ”按钮 ， 按 照 提示 将 相关 脚本 添加 到 开机 启动 中 ， 如 图 16-19 所 示 : 





IIS TH ET 


E 本 地 计算 机 策略 

日 六 计算 机 配置 
田 癌 | 软件 设置 
El [] windows 设置 


| 4 (0) 
532 WY 




















图 16-19 ”组 策略 编辑 器 一 一 开机 启动 脚本 对 话 框 
(8) 配置 允许 系统 在 未 登录 的 情况 下 关闭 


在 宿主 机 维护 时 ， 因 为 虚拟 化 管理 员 往往 没有 虚拟 机 系统 的 密码 ， 又 希望 系统 在 未 登录 的 情况 下 能 正常 关机 ， 修 改组 策略 Windows 安 全 选项 的 “关机 : 允许 系统 在 未 登录 的 情况 下 关闭 ”可 以 实现 这 个 
目的 ， 如 图 16-20 所 示 。 


局 本 地 计算 机 策略 
Bgm 计算 机 配置 
田 国 软件 设置 


a 安全 选项 

田园 高 级 安全 Windows Dh) 

G 网 络 列表 管理 器 策略 
田 国 公 钥 第 略 
a 加 软件 限制 第 略 
a 应 用 程序 控制 第 略 
m Bip 安全 策略 ,在 本 地 
日 0 高 级 审核 策略 配置 

田 SS 系统 审核 策略 - 本 


ly 基于 策略 的 


(9) 配置 Windows 防 火 墙 


| 
天 DCoW: 使 用 安全 描述 符 定 尺 语言 GDDL) 语 法 的 计算 机 启动 限制 没有 定义 


(5; Mi erosoft 网 络 服务 器 : 
国 册 crosoft 网 络 服务 器 : 
国 Wi crosoft 网 络 服务 器 : 
(j)Microsoft 网 络 服务 器 : 
(5) Mi erosoft 网 络 服 务 器 : 
EMicrosoft 网 络 客户 请 : 
(5) Mi erosoft Pod Er Pais : 
(3) Mi erosoft 网 络 客户 端 : 


登录 时 间 过 期 后 疡 开 与 客户 端的 村 接 已 启用 
对 通信 进行 数字 签名 UREN o 已 禁用 
对 通信 进行 数字 签名 始终) 已 禁用 
服务 器 SPN 目标 名 称 验证 级 别 没有 定义 
暂停 会 话 前 所 需 的 空 及 时间 救 量 15 3$ 
对 通信 进行 数字 签名 (如 果 服 务 器 . . ， 已 启用 
对 通信 进行 数字 签名 (始终 ) 已 禁用 
将 未 加 密 的 密码 发 送 到 第 三 方 M.. 已 禁用 


DXN: 清除 虚拟 内 存 页 面 文件 

| 关机 :多 许 系 统 在 未 党 录 的 情况 下 关闭 

砚 恢复 控制 台 ， 允 许 软 拓 夏 制 并 访问 所 有 驱动 器 和 所 有 文件 到 
恢复 控制 台 ， 人 允许 自动 管理 登录 

国 交 互 式 登 录 : 不 显示 最 后 的 用 户 名 

国 交 互 式 登录 ， 试 图 登录 的 用 户 的 消息 标题 

一 交互 式 登录 ， 试 图 登录 的 用 户 的 消息 文本 

国 交 互 式 登录 锁定 会 话 时 显示 用 户 信息 

天 交互 式 登 录 : 提示 用 户 在 过 期 之 前 更 改 密码 

加 交互 式 登 录 : 无 须 按 Ctrl+ALttDel 


图 16-20 ”组 策略 编辑 器 一 一 未 登录 关机 对 话 框 


QoS 





已 禁用 
DHA 


Windows Server 2008 R2 的 防火 墙 默认 全 部 禁止 数据 包 进入 ， 初 始 配置 时 ， 因 为 用 户 需要 远程 连接 ， 建 议 开启 远程 桌面 ， 为 了 方便 判断 虚拟 机 的 状态 ， 建 议 开启 ICMP， 操 作 方 法 如 下 : 在 控制 面板 中 


选择 “Windows 防 火 墙 ”， 然 后 选择 “高 级 设置 ”， 在 “入 站 规则 ”中 ， 右 击 ， 选 择 “新建 规则 ”， 如 图 


|2jm ts | 


P 本 地 计算 机 上 的 高 级 安全 


出 站 规则 
连接 安全 规则 
m 


E 
AES 








?新建 入 站 规则 向 导 
规则 类 型 
选择 要 创建 的 防火 增 规 则 类 型 


16-21 所 示 ， 选 择 “ 自 定义 ” 单 选 按钮 : 





2 程序 

* 协议 和 端口 
* 作用 域 

* 操作 

è 配置 文件 
* 名 称 








图 16-21 新 建 防火 墙 入 站 规则 


下 一 步 如 图 16-22 所 示 , 设置 “协议 类 型 ”为 “TCP”， 在 “本 地 端口 ”下 拉 列 表 框 中 选择 “特定 端口 ”选项 ， 输 入 端口 号 “3389”， 然 后 按照 提示 完成 操作 即 可 。 


AE A WRAS 
协议 和 端口 
指定 此 规则 应 用 于 的 协议 和 端口 * 














图 16-22 ”配置 防护 墙 协议 和 端口 


同样 ， 在 新 建 一 个 规则 ， 运 行 KCMP， 如 图 16-23 所 示 ， 协 议 选 择 ICMPv4， 其 他 按照 提示 操作 即 可 。 


新 建 入 站 规则 向 导 
协议 和 端口 
指定 此 规则 应 用 于 的 协 说 和 端口 。 








图 16-23 配置 防火 墙 ICMP 
(10) 配置 精确 时 钟 和 NTP 服 务 器 
虚拟 机 都 有 时 间 漂 移 的 现象 ，Windows 虚 拟 机 需要 配置 精确 时 钟 和 NTP 服 务 器 。 


1) 精确 时 钟 的 配置 方法 。Windows Server 2003 开 启 精确 时 钟 设置 方法 如 下 : 修改 c: \boot.ini， 在 启动 行 最 后 增加 /usepmtimer 参 数 。 另 外 ， 有 时 需要 进入 安全 方式 进行 配置 ， 为 了 方便 Windows 
Server 2003 进 入 安全 方式 ， 在 c: \boot.ini 中 增加 一 行 以 设置 进入 安全 方式 ， 修 改 后 的 boot.ini 如 下 : 





[boot loader] 

rem 3) HR p 54 y 

timeout-5 

defaultemulti (0)disk(0)rdisk(0)partition (1) WINDOWS 

[operating systems] 

rem 正常 启动 菜单 

multi (0)disk(0)rdisk(0)partition(1) WINDOWS-"Windows Server 2003, Enterprise" / 
noexecute-optout /fastdetect /usepmtimer 

rem 安全 方式 启动 菜单 

multi (0)disk(0)rdisk(0)partition (1) \WINDOWS="Safe Mode" /safeboot:minimal / 
fastdetect /usepmtimer 





Windows Server 2008 R2 配 置 精确 时 钟 的 方法 为 ， 在 命令 行 方式 下 运行 以 下 命令 : 





C:\Windows\system32>bcdedit /set (default) USEPLATFORMCLOCK on 





2) NTP 服 务 器 配置 。 在 桌面 右 下 角 的 时 间 上 右 击 ， 在 弹出 的 快捷 荣 单 中 选择 “更 改 时 间 和 日 期 ”命令 ， 在 弹出 的 对 话 框 中 选择 “Internet 时 间 ” 选 项 卡 ， 输 入 自己 的 NTP 服 务 器 地 址 ， 如 图 16-24 所 


| Internet 时 间 


已 将 计算 机 设置 为 自动 与 "time.windows.com" 同步 。 


此 计算 机 已 设置 为 自动 定期 同步 。 


ee 


vis 


= aeetas ha mand meea emt ma mama taa aa a at maa a ma ma aan a a a aa an a aa a 


RZE): time.windows.com 


此 计算 机 已 设置 为 自动 定期 同步 。 





图 16-24 配置 NTP 服 务 器 
(11) IE 配置 


1) 将 IE 浏 览 器 主页 设置 为 空白 页 面 ， 并 将 IE 浏览 器 中 的 历史 记录 删除 。 





2) 关闭 IE 浏 览 器 的 增强 安全 配置 。 


操作 方法 : 在 服务 器 管理 器 中 选择 “配置 IE ESC”， 如 图 16-25 所 示 。 





pE 


| LL 2G [EIE S 











a 获取 有 关 此 服务 器 状态 的 概述 ， 执 行 首要 管理 任务 ， 并 添加 或 吓 作 服务 器 角色 和 功能 。 


Iv 登录 时 不 要 显示 此 控制 台 也 ) 


人 安全 信息 d 转 到 Windows Dh 
Windows BANIS: ANB: 启用 a 配置 更 新 

fs 检查 新 角色 

B 运行 安全 配置 向 导 


pamm MaA Warm 


A ERN 从 未 安装 


Windows Update: gum Windows Update 检查 更 
Ei 


IE 增强 的 安全 配 为 Administrator 打开 
F ESC): 为 用 户 打开 


图 16-25 ”服务 器 管理 器 中 的 “配置 IE ESC” 




















“用 户 ” 的 IE 增强 的 安全 配置 禁用 ， 如 








图 16-26 所 示 。 








A Internet Explorer i iE ERE a - e 


图 16-26 IE 增强 的 安全 配置 


(12) 网 络 配 置 


为 了 安全 起 见 ， 关 闭 Windows 的 网 络 共享 和 WINS 解 析 ， 如 图 16-27 所 示 ， 关 闭 网 络 配置 中 的 |Pv6、 微 软 网 络 客户 端 、 文 件 和 打印 机 共享 选 型 。 如 图 16-28 所 示 ， 禁 用 TCP/IP 中 的 NetBIOS。 
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O dBliti crosoft 网 络 的 文件 和 打印 机 共享 
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图 16-28 TCP/IP WINS BC t 


16.1.2 ”Windows 虚 拟 机 sysprep 初 始 化 封装 


镜像 制作 中 ， 一 般 安装 好 系统 ， 并 设 定好 所 有 标准 化 选项 ， 然 后 进行 系统 封装 ， 以 便 通 过 镜像 部 署 的 虚拟 机 在 首次 启动 时 自动 更 新 SID、 配 置 、 主 机 名 。 如 果 不 更 新 SID， 通 过 模板 部 署 的 所 有 虚拟 机 
SID 都 一 样 ， 这 些 虚 拟 机 如 果 要 加 入 Windows 域 就 会 有 问题 。 所 以 ， 为 了 保险 起 见 ， 在 制作 镜像 过 程 中 ， 最 好 进行 镜像 的 封装 ， 下 面 介绍 Windows 封 装 的 方法 。 


Q9. 
SID 是 每 个 Windows 系 统 的 唯一 标识 符 ， 根 据 笔者 的 生产 环境 的 经 验 ， 如 果 Windows 系 统 不 加 入 域 ， 不 进行 系统 封装 也 可 以 正常 稳定 地 运行 。 但 是 ， 这 样 复制 出 来 的 虚拟 机 会 出 现 主 机 名 同名 的 问题 ， 解 
决 方法 是 通过 初始 化 脚本 实现 主机 名 随机 修改 。 


另外 ，Windows Server 2003 也 可 以 通过 newsid 工 具 进行 修改 ，Windows Server 2008 R2 如 果 要 修改 SID 必 须 使 用 微软 的 封装 方法 。 
1.Windows Server 2003 的 封装 
Windows Server 2003 的 封装 方法 如 下 : 


@ 在 Windows Server 2003 系 统 安装 光盘 中 找到 SUPPORT 目 录 下 的 TOOLS 文 件 夹 ， 将 DEPLOY.CAB 内 的 所 有 文件 解压 到 到 C 盘 Sysprep 文 件 夹 中 。 











@ 运 行 其 中 的 sysprep.exe， 在 下 一 步 的 封装 主 界面 中 选择 “重新 封装 ”选项 。 

















@10~20 秒 封装 准备 完成 后 ， 系 统 自动 关机 。 








通过 以 上 步骤 ， 可 以 把 封装 后 的 虚拟 机 转化 为 模板 ， 然 后 就 可 以 通过 此 模板 部 署 虚拟 机 了 。 以 上 封装 好 的 系统 ， 首 次 启动 会 有 对 话 框 要 求 
量 部 署 虚拟 机 ， 每 台 都 手动 输入 非常 不 方便 ， 为 了 解决 这 个 问题 ， 微 软 提供 自动 应 答 文件 的 方案 ， 以 便 封 装 好 的 系统 首次 启动 自动 运行 应 对 文件 ， 不 需 


在 运行 封装 之 前 ， 首 先 ， 运 行 sysprep 文 件 夹 下 的 setupmgr.exe， 安 装 向 导 会 指导 一 步 步 完 成 自动 应 答 文件 的 生成 ， 过 程 很 简 重 


全 部 输入 完毕 后 ， 结 束 向 导 ， 会 在 sysprep 目 录 下 生成 一 个 名 称 为 sysprep.inf 的 应 答 文件 。 


配置 。 


2.Windows 2008 R2 封 装 














Windows Server 2008 的 封装 工具 位 于 



























































双击 运行 其 中 的 sysperp， 选 择 “OOBE” 和 下 面 的 “ 通 











Windows Server 2008 R2 也 可 以 制作 自动 应 答 文件 ， 在 微软 网 站 下 载 相关 的 工具 


读者 参考 微软 官网 的 相关 文档 ， 本 书 就 不 作 详细 介绍 了 。 


162 Linux 镜 像 制作 方法 


16.2.1 RHEL/CentOS 镜 像 制 作 方 法 


























”， 确 定 后 开始 封装 ， 结 束 后 会 

















首先 进行 系统 的 安装 ， 安 装 过 程 就 不 详细 介绍 了 ， 有 以 下 几 个 注意 点 。 


(1) 关于 镜像 大 小 
根据 经 验 ， 一 般 Linux 系 统 盘 20GB 大 小 比较 合适 。 


(2) 关于 分 区 大 小 











分 区 建议 使 














1) boot 分 区 大 小 配置 。 


boot 分 区 建议 按照 表 16-2 进 行 配 置 。 


系 


RHEL/CentOS 5 
RHEL/CentOS 6 系 
RHEL/CentOS 7 


2) swap 分 区 配置 。 





swap 一 般 和 内 存 大 小 一 致 ， 或 者 安装 的 时 候 不 创建 swap 分 区 ， 安 装 完成 后 使 用 文件 的 格式 。 








swap 文 件 分 区 操作 方法 如 下 : 


@ 创 建 swap。 


自 定义 方式 安装 ，boot、swap、 根 分 区 的 配置 经 验 如 下 。 














C:\Windows\System32\sysprep 目 录 下 ， 不 需要 安装 光盘 。 


动 关机 。 








， 工 具 的 下 载 参考 7.3.1 节 ，Windows Server 2008 的 











户 提供 必 











设 定 信息 ， 如 主机 名 、 
户 手动 输入 信息 ， 具 体 设 定 步骤 如 下 。 





























Em， 笔 者 就 不 详细 介绍 了 。 


区 域 语言 设 定 等 。 对 于 批 





动 应 答 文件 生成 后 ， 再 运行 sysprep.exe 进 行 封装 就 可 以 了 ， 通 过 镜像 复制 的 系统 首次 运行 就 可 以 








动 完成 














动 应 答 文件 为 xm 格式， 配置 方法 不 在 本 书 的 讨论 范 车 











表 16-2 ”boot 分 区 大 小 配置 


统 
系列 
列 


系列 








EP, 





但 也 不 是 绝对 的 ， 要 根据 业务 类 型 来 决定 ， 如 在 生产 环境 中 ， 根 据 业 务 需要 ， 有 的 Linux 系 统 镜像 模板 大 小 为 150GB。 


boot 分 区 大 小 (MB ) 
100 
200 
300 





4 fallocate -1 512M /swapfile 














@ 启 











swap. 


# chmod 600 /swapfile 
# mkswap -f /swapfile 
# swapon /swapfile 





@ 验 证 swap 是 否 生效 ， 大 小 是 否 符合 预期 。 





# swapon -s 
# free -m 





@ 修 改 fstab， 使 swap 开 机 自动 挂 载 。 添 加 以 下 内 容 : 

















/swapfile none swap defaults 0 0 








3) 关于 根 分 区 大 小 和 业务 数据 存储 。 





建议 剩余 空间 全 部 留 给 根 分 区 ， 业 务 数据 存储 需 另外 挂 载 一 块 磁盘 ， 根 据 业 务 需求 配置 大 小 。 


(3) 系统 升级 











这 步 很 重要 ， 升 级 系统 可 以 提升 虚拟 化 的 转换 效率 ， 使 

















较 新 的 Virtio 驱 动 ， 命 令 如 下 : 





# yum update -y 


(4) 删除 旧 的 内 核 




















为 了 节约 空间 ， 删 除 旧 的 内 核 ， 并 修改 启动 菜单 不 用 的 内 核 。 








(5) 安装 基础 组 件 和 开发 组 件 











基础 组 件 Base 和 开发 组 件 一 般 系统 都 需要 使 用 ， 建 议 安 装 。 














(6) yum 配 置 





建议 搭建 内 部 yum 源 ， 其 优点 如 下 : 
“更 新 速度 快 。 
“ 节省 带宽 。 


“ 可 以 将 自己 制作 的 tpm 包 放 入 yum 源 中 。 

















如 果 有 自 定义 的 yum 源 ， 在 模板 镜像 中 添加 自 建 的 yum 源 配置 。 
(7) 配置 NTP 


可 以 配置 外 网 的 NTP 地 址 ， 也 可 以 自己 搭建 NTP 服 务 ， 以 外 网 NTP 为 例 。 





将 /etc/ntp.conf 中 的 NTP 服 务 器 更 换 为 亚洲 的 NTP 源 ， 命 令 如 下 : 





# vim /etc/ntp.conf 

server 0.centos.pool.ntp.org 
server 1.centos.pool.ntp.org 
server 2.centos.pool.ntp.org 





修改 如 下 : 





server 0.asia.pool.ntp.org 
server 1.asia.pool.ntp.org 
server 2.asia.pool.ntp.org 


开启 NTP 服 务 、 配 置 NTP 服 务 开 机 运行 ， 命 令 如 下 : 





# service ntpd start 
# chkconfig ntpd on 


(8) 关闭 SELinux 





SELinux 开 启 的 情况 下 ,许多 程序 都 要 进行 特殊 配置 ， 一 般 生 产 环境 建议 关闭 ， 方 法 为 修改 /etc/selinux/config， 将 其 中 的 SELINUX=enforcing 修 改 为 SELINUX=disabled.。 


16.2.2 Ubuntu、Debian 虚 拟 机 配置 注意 点 


Ubuntu、Debian 的 虚拟 机 安装 配置 和 CentOS 类 似 ， 这 里 只 介绍 以 下 需要 注意 的 地 方 : 
: 因为 Ubuntu 系统 的 升级 比较 激进 ， 尽 量 选择 长 支持 的 版 本 和 内 核 。 笔 者 在 生产 环境 中 碰 到 多 次 Ubuntu 系统 使 用 较 新 内 核 ， 系 统 前 溃 的 问题 。 
“ 使 用 手工 分 区 ， 不 要 使 用 Ivm 方 式 。 笔 者 碰 到 过 多 次 使 用 Ivm 方 式 ， 重 启 系统 的 时 候 文件 系统 检查 不 通过 的 情况 。 


:按照 16.4 节 的 方法 ， 进 行 严格 的 性 能 和 稳定 性 测试 。 


16.3 ”虚拟 机 自动 配置 |P 的 实现 办 法 


在 生产 环境 中 ， 经 常 需要 批量 的 生成 虚拟 机 ， 并 且 希 望 能 够 自动 的 完成 虚拟 机 的 IP 配 置 ， 而 且 虚 拟 机 的 IP 能 够 按照 希望 的 规则 配置 上 去 ， 本 节 详 细 介绍 如 何 自动 化 的 批量 配置 虚拟 机 IP 方 案 。 











16.3.1 通过 DHCP 给 虚拟 机 配置 |P 
DHCP 的 方法 是 一 个 传统 方案 ， 可 以 专门 架设 一 台 或 者 一 组 DHCP 服 务 器 ， 通 过 DHCP 服 务 分 发 |P， 如 果 需 要 也 可 以 控制 特定 的 MAC 地 址 配置 特定 的 IP。 
DHCP 方 案 的 缺点 如 下 : 
“ 变更 IP 的 时 候 操作 麻烦 ， 并 且 有 生效 周期 。 
- 要 精确 控制 MAC 和 IP 的 对 应 关系 ， 需 要 频繁 修改 DHCP 配 置 文件 。 


< 有 一 定 的 几率 虚拟 机 不 能 获得 IP。 











所 以 ，DHCP 方 案 在 生产 环境 使 用 关键 的 问题 是 要 精细 的 控制 DHCP 服 务 。 














16.3.2 ”通过 Libvirt 实 现 虚 拟 机 自动 配置 IP 


Libvirt 的 网 络 资源 池 支 持 虚 拟 机 的 自动 配置 |P，IP 资 源 池 的 xml 配 置 文件 如 下 : 





<ip address-"192.168.122.1" netmask-"255.255.255.0"» 

«dhcp» 

«range start-"192.168.122.128" end-"192.168.122.254" /> 

Xhost mac-"00:16:3e:77:e2:ed" name-"foo.example.com" ip-"192.168.122.10" /> 
Xhost mac-"00:16:3e:3e:a9:1a" name-"bar.example.com" ip-"192.168.122.11" /> 
«/dhcp» 








这 样 ， 可 以 对 特定 的 虚拟 机 实现 IP 按 照 MAC 配 置 。 


16.3.3 ”笔者 生产 环境 虚拟 机 IP 自 动 配置 的 方法 





(1) 实现 虚拟 机 IP 自 动 配置 的 原理 



































在 生产 环境 中 ， 实 现 虚拟 机 IP 自 动 配置 的 原理 如 下 : 








“ 康 拟 机 在 生成 的 过 程 中 ， 通 过 管理 工具 从 IP 资 源 池 中 随机 选择 一 个 空闲 的 IP 及 相关 掩 码 、 网 关 信息 放 到 指定 的 文件 中 。 
“ 通过 脚本 读 取 此 文件 并 生成 网 卡 的 配置 。 
' 通过 virt-copy-in 将 配置 文件 复制 到 虚拟 机 。 
“ 康 拟 机 启动 后 运行 配置 脚本 ， 实 现 IP 自 动 配置 。 
(2) 方案 技术 难点 和 应 对 办 法 
这 个 方案 的 难点 如 下 : 
“ 需要 随机 生成 MAC 地 址 ， 并 保证 MAC 地 址 不 重复 。 


“ 保证 虚拟 机 MAC 和 IP 地 址 的 严格 对 应 关系 。 

















MAC 地 址 随机 生成 ， 可 以 使 用 virtinst 工 具 的 API 随 机 生成 MAC， 具 体 如 下 : 











import virtinst.util 
MACl-virtinst.util.randomMAC ("qemu") 
MAC2-virtinst.util.randomMAC ("qemu") 





©; 明 


virtinst 工 具 是 一 套 Python 写 基于 Libvirt 的 虚拟 机 安装 工具 ，github 地 址 是 https:/ /github.com/tlaager/python-virtinst。 
保证 虚拟 机 MAC 和 IP 地 址 的 严格 对 应 关系 解决 办 法 如 下 : 

“ 随机 生成 MAC 地 址 ， 并 赋值 给 变量 。 

“ 通过 virt-install 命 令 生成 虚拟 机 ， 并 将 MAC 地 址 变量 作为 参数 ， 使 生成 的 虚拟 机 MAC 地 址 作为 指定 的 地 址 。 


“ 将 IP 信 息 传 给 虚拟 机 内 部 的 IP 配 置 脚本 ， 在 虚拟 机 第 一 次 启动 的 时 候 自动 运行 脚本 ， 完 成 IP 配 置 。 








以 上 功能 通过 简单 的 脚本 可 以 完成 ，Windows 和 Linux 系 统 虚 拟 机 的 IP 配 置 脚本 是 一 个 难点 ， 下 面 介绍 下 Windows 和 Linux 系 统 虚 拟 机 的 IP 配 置 脚本 。 














1.Windows 虚 拟 机 IP 地 址 自动 配置 的 方法 
Windows 系 统 可 以 将 IP 的 配置 文件 在 虚拟 机 生成 的 时 候 ， 通 过 virt-copy-in 复 制 到 虚拟 机 中 ， 这 样 ， 在 虚拟 机 启动 的 时 候 ， 通 过 执行 一 个 vbs 配 置 脚本 ， 读 取 配 置 文件 ， 就 可 以 完成 虚拟 机 IP 配 置 。 


首先 ， 配 置 组 策略 ， 让 虚拟 机 启动 的 时 候 运 行 setnicip.vbs 脚 本 ， 组 策略 的 配置 方案 已 经 在 16.1.1 节 中 介绍 过 ， 通 过 组 策略 配置 系统 在 启动 的 时 候 运行 C: \windows\setnicip.vbs 脚 本 。 





在 C: \windows 目 录 下 编辑 生成 setnicip.vbs 文 件 ，setnicip.vbs 内 容 如 下 : 





'Option Explicit 

call auto setup ip() 

' 读 取 配 置 葡 件 ， 并 很 据 配置 文件 设置 ITP 地 址 ， 如 果 配 置 文件 第 一 行 jpsetup 为 1 就 直接 退出 
! 注 意 目标 是 设置 一 个 标志 ， 如 果 配 置 过 IP， 就 不 在 重新 配置 IP 

sub auto setup ip 

Const ForReading-1, ForWriting=2, ForAppending=8 

Dim fso,file,msg, logfile 

Dim WshShell,Path init file,Path log file 

Dim mac (10), ip(10),mask(10),gw(10) 

Dim k,m 

Dim  ifrun 

Dim  i,j,x,y 

Dim nicfile (20) 

Dim objFSO, logFSO 

Dim  rtime 

Dim nane, reval 

i=0 

j=1 

x=0 

y=0 

Set WshShell=WScript.CreateObject( "WScript.Shell") "得 到 程序 所 在 的 当前 路 径 
Path init file-left (Wscript.ScriptFullName, len (Wscript.ScriptFullName)- 
len(Wscript.ScriptName))& "nicinfo.ini" 

"设置 配置 文件 为 当前 路 径 下 的 nicinfo.ini 
"nicinfo.ini 文 件 注意 是 在 虚拟 机 生成 的 时 候 通 过 Virt-copy-in 注 入 虚拟 机 
Path log file-left (Wscript.ScriptFullName, len (Wscript.ScriptFullName)- 
len(Wscript.ScriptName))& "nicinfo.log" 

"设置 日 子 文件 为 当前 路 径 下 的 nicinfo.1og 
wrlog (" 脚 本 开始 运行 时 间 是 :") 

Set objFSO = Createobject ("Scripting.FileSystemObject") 
If objFSO.Fileexists(path init file) Then 
'msgbox ("fil now") 
else 
'msgbox ("fil now ---") 
exit sub 

end if 
Set fso-CreateObject ("Scripting.FileSystemObject") 
Set file-fso.OpenTextFile(Path init file, ForReading) 
While (Not file.AtEndOfLine) 

msg-file.ReadLine 

nicfile(i)-msg 

i=i+1 

msg=trim (msg) 

if instr (msg, "c_name:")>0 then 





k Instr(msg, " 


) 





m Len (msg) 

reval = Right(msg, m - k) 
else 
end if 


if instr (msg, "ipsetup:")>0 then 
k = InStr(msg, ":") 
m = Len (msg) 
ifrun - Right(msg, m - k) 
'msgbox (ifrun) 
if (ifrun-"0") then 


ifrun-"1" 
else 
exit sub 
end if 
'msgbox (ifrun) 
else 
end if 


if instr (msg, "mac:") >0 then 
k = InStr(msg, ":") 
m = Len (msg) 
mac(x) = Right(msg, m - k) 
x=x+1 
'msgbox (routmac) 
else 
end if 
if instr (msg, "ip:")>0 then 
k = InStr (msg, ":") 
m = Len (msg) 
ip(x) = Right (msg, m - k) 
'msgbox (routip) 
else 
end if 
if instr (msg, "mask:")>0 then 
k = InStr (msg, ") 
m = Len (msg) 
mask(x) = Right(msg, m - k) 
'msgbox (routmask) 
else 
end if 
if instr (msg,"gw:")»0 then 
k = InStr(msg, ":") 
m = Len (msg) 
gw(x) = Right(msg, m - k) 
'msgbox (routgw) 
else 
end if 
Wend 
file.Close 
Set file-Nothing 
Set fso-Nothing 
'wrlog ("Configure Compute Name :") 
'Set objnet - CreateObject ("WScript.Network") 
'Set R = CreateObject ("WScript.Shell") 
'if (ifrun-"1") then 
' strComputer - "." 
' Set objWMIService = GetObject("winmgmts:" _ 
' & "(impersonationLevel-impersonate]! NN" 
' & strComputer & "NrootNcimv2") ns 
'Set colComputers = objWMIService.ExecQuery _ 
' ("Select * from Win32 ComputerSystem") 
'For Each objComputer in colComputers 
1 If reval <> "" Then 
'errReturn = ObjComputer.Rename (reval) 
'R.run("Shutdown.exe -r -t 0") 
'end If 
'next 
'else 
'end if 
wrlog ("配置 外 网 ip :") 
WScript.Sleep 50000 
strGatewaymetric = Array(1) 
For y-0 To x-1 
'Dim strComputer, objWMIService, colNetAdapters, strIPAddress, strSubnetMask, strG 
ateway, errEnable, errGateways, objNetAdapter 
strComputer = "." 
Set objWMIService = GetObject ("winmgmts:\\" & strComputer & "NVrootNCIMV2") 
Set colNetAdapters = objWMIService.ExecQuery ("Select * from Win32 
NetworkAdapterConfiguration where (MACAddress ='"+ mac(y)*"' )") 
strlIPAddress = Array(ip(y)) 
strSubnetMask - Array (mask(y)) 
strGateway = Array (gw (y) 
For Each objNetAdapter In colNetAdapters 
errEnable = objNetAdapter .EnableStatic (strIPAddress, strSubnetMask) 
errGateways = objNetAdapter.SetGateways (strGateway, strGatewaymetric) 
next 
next 
wrlog ("ip 配 置 完成 :") 
Set fso-CreateObject ("Scripting.FileSystemObject") 
Set file-fso.OpenTextFile(Path init file, ForWriting) 
file.write("ipsetup:"4ifrun + vbCrLf) 
file.Close 
Set fso-CreateObject ("Scripting.FileSystemObject") 
Set file-fso.OpenTextFile(Path init file,8) 
do until j > i 
'msgbox (j) 
file.writeline (nicfile(j)) 
j=j+1 
loop 
file.Close 
wrlog ("修改 配置 文件 完成 :") 
Set file=Nothing 
Set fso=Nothing 
"删除 组 策略 配置 文件 
Set fso-CreateObject ("Scripting.FileSystemObject") 
'fso.deletefile ("C: NWINDOWSNsystem32NGroupPolicyMMachineNScriptsNScripts.ini"),true 
Set fso-Nothing 
Set Jshell-WScript.CreateObject ("WScript.Shell") 
'shell.run("del C: WINDOWSNsystem32NGroupPolicyMMachineNScriptsNScripts.ini /f /q /a") 
， 强制 更 新 组 策略 
'shell. run ("c:\windows\system32\gpupdate /force ") 
WScript.Sleep 5000 
' 重启 
'WScript.Sleep 10000 
'set win32 OS-getobject ("winmgmts: { (Shutdown) ) // ./root/cimv2") .execQuery 
("select * from win32 operatingsystem where primary-true") 
'for each OS in win32 OS 
'OS.win32shutdown (6) 
"next 
'set win32 OS-nothing 
end sub 
function wrlog (logmsg) 
Set  WshShell-WScript.CreateObject( "WScript.Shell") 
"得 到 程序 所 在 的 当前 路 径 
Path log file-left (Wscript.ScriptFullName, len (Wscript.ScriptFullName) -len (Wscript. 
ScriptName))& "nicinfo.log" "设置 日 子 文件 为 当前 路 径 下 的 nicinfo.1og 
"判断 日 志文 件 是 否 存在 ， 如 果 不 存在 则 创建 
Set logfso-CreateObject ("Scripting.FileSystemObject") 
If logfso.Fileexists(Path log file) Then 
'msgbox("fil now") Zo 
else 
set ts=logfso.CreateTextFile (Path log file, True) 
ts.close ad 
end if 
' 写 日 志 
Set logfile-logfso.OpenTextFile (Path log file,8) 
rtime-cstr (now()) T 
logfile.write(logmsg*rtime + vbCrLf) 
logfile.Close 











end function 





在 脚本 中 读 取 nicinfo.ini 文 件 ， 这 个 文件 在 虚拟 机 生成 的 时 候 ， 通 过 virt-copy-in 命 令 ， 复 制 到 虚拟 机 的 c: \Windows 目 录 下 面 ，nicinfo.ini 文 件 格式 如 下 : 





ipsetup:1 1 或 者 0 控制 是 否 运 行 IP 配 置 脚本 

ip:88.88.88.88 需要 配置 的 外 网 IP 

mask:255.255.255.128 外 网 IP 子 网 掩 码 

gw:88.88.88.1 外 网 网 关 

mac:00:16:3e:02:79:f4 外 网 的 MAC 地 址 ， 使 用 MAC 地 址 主要 是 可 以 实现 精确 的 网 卡 匹 配 
ip:10.88.88.1 内 网 IP 

mask:255.255.255.0 内 网 子 网 掩 码 

gw:0.0.0.0 内 网 网 关 ，0.0.0.0 表 示 没 有 网 关 

mac:00:16:3e:a0:11:d3 内 网 mac 地 址 





2.Linux 虚 拟 机 IP 地 址 自动 配置 的 方法 
Linux 系 统 将 IP 的 配置 信息 作为 参数 传 给 IP 配 置 脚本 ， 通 过 virt-copy-in 复 制 到 虚拟 机 的 rc.local 中 ， 这 样 ， 在 虚拟 机 启动 的 时 候 ， 会 运行 配置 脚本 ， 完 成 虚拟 机 IP 配 置 。 


IP 配 置 脚本 名 为 setipbymac.sh， 需 要 修改 的 rc.local 内 容 如 下 : 





sh /bin/setipbymac.sh vm-hostname 10.0.102.1 10.0.102.190 255.255.255.0 
52:54:00:EA:AB:77 172.0.102.190 255.255.255.0 52:54:00:28:16:B7 





在 虚拟 机 模板 配置 的 时 候 ， 将 setipbymac.sh 脚 本 复制 到 /bin 目 录 下 ， 并 配置 执行 属性 ，setipbymac.sh 脚 本 内 容 如 下 : 








#!/bin/bash 
#write by xiaoli V2.1 
#set hostname and nic ip 
TJHHHHHHHHHHHHHHHEEunction set nic infot t H EREE 
# set nic ip， 功能 是 设置 网 卡 信息 
set nic ip(){ 
# 网 下 名 字 为 第 一 个 参数 
nic name-$1 
#IP 为 第 二 个 参数 
nic ip=$2 
# 掩 码 为 第 三 个 参数 
nic netmask=$3 
# 根 据 网 卡 名 字 生成 TP 配置 文件 
nic name file-"/etc/sysconfig/network-scripts/ifcfg-"$nic name 
# 根 据 网 卡 名 字 将 原 有 的 ITP 文 件 进行 备份 
nic name file bak-"/etc/sysconfig/network-scripts/ifcfg-"$nic name".bak" 
# 检 查 网 卡 名 字 是 否 赋值 成 功 ， 如 果 不 成 功 就 退出 
if [ -z "$nic name" ];then 
echo "no nic name give!" 
exit 5 
else 
echo 


nic name check ok 
fi 
echo "nic name is" $nic name 
echo "nic ip is" $nic ip 
echo "nic netmask is " $nic netmask 
echo "nic file name is " $nic name file 
# 检 查 是 否 存 在 IP 配 置 文件 ， 存 在 先进 行 备 份 
if [ -f "$nic name file" ];then 

echo "nic file exist! backup it" 

rm $nic name file bak -f 

mv $nic name file $nic name file bak 
else 

echo 


nic file not exist create it 


fi 
# 生 成 IP 配 置 文件 
touch $nic name file 
echo "DEVICE-"$nic name »»$nic name file 
echo "BOOTPROTO-none" »»$nic name file 
echo "ONBOOT-yes" »»$nic name file 
echo "TYPE-Ethernet" »»$nic name file 
echo "IPADDR-"$nic ip »»$nic name file 
echo "NETMASK-"$nic netmask »»$nic name file 
# 启 动 网 卡 
/sbin/ifdown $nic name 
/sbin/ifup $nic name 
echo "+ 二 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 
cat $nic name file 
echo "十 十 十 + 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 中 
} 
THHHHBHHHBHHHBHHHBHHHBHHHHHHBHHHBHHHHHHHHHHBHHHHHHRE 
dpoeceoceoeeooenoeeeoee get. variable eeceeeck 
# 检 查 是 否 是 RHEL/CentOS7 
uname -r |grep el7 
#mac 地 址 赋值 
maci-$5 
mac2-$8 
# 如 果 是 RHEL/CentOS7, 将 MAC 地 址 转化 为 小 写 
if [[ $ -eq 0 ]];then 
#typeset -i get nicl mac 
fget nicl mac-"$ [macl]" 
get nicl mac-$(echo $macl | tr '[A-Z]' '[a-z]') 
get nic2 mac-$(echo $mac2 | tr '[A-Z]' ' 
else 
get nicl mac-"$(macl]" 
get nic2 mac-"$ (mac2]" 
fi 
# 得 到 主机 名 、 外 网 网 关 、 外 网 ITP、 外 网 掩 码 、 外 网 MAC、 内 网 ITP、 内 网 掩 码 、 内 网 MAC 信 息 
get host name-$1 
get gateway-$2 
get nicl ip-$3 
get nicl netmask-$4 
#get nicl mac-$5 
get nic2 ip-$6 
get nic2 netmask-$7 
#get nic2 mac-$8 
dpooceiocecpeeooeeoeeeoee get. variable'eeceeecr 
THHHHHHHHHHHHHESet hostname tHHHHHHHHHHHHHHHHHRHHE 
# 配 置 主机 名 
echo "host name is "$get host name 
# 检 查 主 机 名 是 否 赋值 成 功 ， 如 果 不 成 功 就 退出 
if [ -z "$get host name" ];then 
echo "please give host name!" 
echo "variable order by hostname gateway nicl ip nicl netmask nicl mac nic2 
ip nic2 netmask nic2 mac" 
exit 6 
else 
# 配 置 RHEL/CentOS6 主 机 名 ， 如 果 是 RHEL/CentOS7， 不 存在 HOSTNAME 关 键 字 ， 不 造成 影响 
sed -i 's/.*HOSTNAME.*/HOSTNAMEV-"'$get host name'"/g' /etc/sysconfig/network 
# 配 置 RHEL/CentOS7 主 机 名 ， 如 果 是 RHEL/CentOS6 不 存在 hostnamect1 命 令 ， 不 造成 影响 
hostnamectl set-hostname $get host name 
echo "host name set OK!" 
fi 
THHHHBHHHHHHHBHHBHHHBHHHHHHBHHBHHHBHHHHHHHRHHHHHRHHE 
JHHHHHHHHHHHHHEset: gateway HHHHBHEBHHHHHHHHRHRHE 
HOENWX 
echo "gate way is"$get gateway 
# 检 查 网 关 是 否 赋值 成 功 ， 如 果 不 成 功 就 退出 
if [ -z "$get gateway" ];then 
echo "please give gateway!" 
echo "variable order by hostname gateway nicl ip nicl netmask nicl mac nic2 


ip nic2 netmask nic2 mac" 
exit 7 
else 
if [ 'cat /etc/sysconfig/network |grep GATEWAY |wc -1' -eq 1 ];then 
sed -i 's/.*GATEWAY.*/GATEWAYN-"'S$get gateway'"/g' /etc/sysconfig/network 
else 
echo "GATEWAY-"$get gateway >> /etc/sysconfig/network 


fi 
echo "gate way set OK!" 





JHHHHHHHHHHHHHE THHHHHHHHHHHHHHHRHHHHHE 

temp001-'/sbin/ifconfig -a |grep Link' 

# 检查 是 否 是 RHEL/CentOS6， 还 是 RHEL/CentOS7， 根 据 不 同系 统 的 jfconfig 命 令 输 出 

+ 得 到 每 块 网 卡 的 名 字 、MAC 地 址 信息 

if [[ $ -eq0 ]];then 
allif-'/sbin/ifconfig -a |grep Link |awk '(print $1)'|grep -vE "lo|inet6|sitO"' 
allmac-'/sbin/ifconfig -a |grep Link |awk 'í(print $5]'|grep -vE "lo|linet6|sit0""' 
ifcounter-'/sbin/ifconfig -a |grep Link|grep -vE "lo|inet6|sitO" |wc -1' 





else 
if [[ $ -eq 1 ]];then 
allif-'/sbin/ifconfig -a |grep mtu |awk -F : '{print $1)'|grep -vE "loļinet6|sit0"' 
allmac-'/sbin/ifconfig -a |grep ether |awk '{print $2)'|grep -vE "lo|inet6|sitO"' 
ifcounter-'/sbin/ifconfig -a |grep mtu|grep -vE "lo|inet6|sitO" |wc -1' 

fi 

fi 


echo "ifname is " $allif 

echo "mac add is " $allmac 
echo "ifcounter is " $ifcounter 
#push if and mac to array 

# 将 IP MAC 信 息 放 到 数组 中 

x=1 








while [ $x -le $ifcounter ]; 
do 
#STR_TEMP='printf "%s%s" "$STR_TEMP" "$1"' 
ifname[$x]='echo $allif|awk ' {print $'$x']'' 
ifmac[$x]-'echo $allmac|awk '(print $'$x']'" 
echo "x" $x 
echo "ifname" $[ifname[$x]] 
ec ifmac" ${ifmac[$x]} 
ILLE 9MAC 和 脚本 参数 的 MAC 是 否 相同 ， 如 果 相 同 就 调用 IP 脚 本 配置 函数 
if [ "$(ifmac[$x])" = "$get nicl mac" ];then 
set nic ip $(ifname[$x]] $get nicl ip $get nic2 netmask 
else 
echo "not nici" 
fi 
if [ "$(ifmac[$x]]" = "$get nic2 mac" ];then 
set nic ip $[ifname[$x]] Sget 1 nic2 ip $get nic2 netmask 
else 
echo "not nic2" 
fi 
x-'expr $x + 1' 
done 


#b[0]='echo $a |awk "(print $1)'' 
可 [1]='echo $a |awk "(print $2)'' 
techo ${b[0]} 
fece ${b[1]} 


# 将 TP 配 置 脚 本 注释 掉 ， 放 置 下 次 开机 运行 

sed -i '/^shN \/bin\/setipbymac/s/^/#/' /etc/rc.local 

sed -i '/^shN V/binMV/setipbymac/s/^/4/' /etc/rc.d/rc.local 
sed -i 's/\(127.*\)/\1 "'$get host name'"/' /etc/hosts 
sed -i 's/"/N /g' /etc/hosts 

# 配 置 完成 重启 系统 

reboot 





16.4 ”虚拟 机 镜像 测试 





根据 经 验 ， 不 同 操作 系统 、 驱 动 、 内 核 版 本 对 稳定 性 和 性 能 有 不 同 的 影响 ， 尤 其 是 对 稳定 性 的 影响 。 所 有 的 虚拟 机 都 是 通过 模板 进行 复制 ， 所 以 ， 虚 拟 机 模板 的 测试 非常 重要 。 

















对 虚拟 机 镜像 的 测试 ， 主 要 通过 一 系列 专业 测试 工具 ， 测 试镜 像 的 性 能 、 兼 容 性 、 稳 定性 。 测 试 流程 如 表 16-3 所 示 ， 具 体 的 测试 工具 和 方法 ， 在 15.6 节 有 详细 介绍 。 





表 16-3 ”虚拟 机 镜像 测试 列表 


测试 内 容 目 的 
虚拟 机 系统 内 反复 重启 50 次 测试 重启 稳定 性 
"UUUTEDETS 测试 断 电 重 启 稳定 性 
磁盘 IO 性 能 测试 测试 虚拟 机 磁盘 最 大 性 ， 优 选 不 同系 统合 适 的 磁盘 格式 
网 络 UO 性 能 测试 测试 虚拟 机 网 络 最 大 性 ， 优 选 不 同系 统合 适 的 网 卡 驱 动 
磁盘 LO 稳定 性 测试 磁盘 持续 高 压力 测试 小时， 测试 稳定 性 
网 络 UO 稳定 性 测试 网 络 高 春 吐 、 高 发 布 率 情况 下 ， 持 续 测 试 24 小 时 ， 测 试 稳定 性 
业务 压力 测试 测试 虚拟 机 最 大 的 业务 负载 压力 
业务 稳定 性 测试 业务 最 大 压力 持续 压 测 24 小 时 ， 测 试 虚拟 机 稳定 性 
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本 章 介绍 了 Windows 和 Linux 模 板 镜像 的 制作 方法 和 配置 、 测 试 注意 点 ， 虚 拟 机 模板 制作 需要 非常 细致 、 认 真 、 谨 慎 ， 并 严格 进行 测试 ， 有 一 点 琉 忽 ， 都 可 能 会 造成 线 上 同 版 本 的 虚拟 机 稳定 性 问题 ， 
这 方面 笔者 有 多 次 深刻 的 教训 。 














下 一 章 将 为 读者 介绍 单机 虚拟 机 技术 与 应 用 场景 。 
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第 17 章 单机 虚拟 化 技术 与 生产 环境 实践 



































第 16 章 详细 地 介绍 了 虚拟 机 模板 镜像 的 制作 过 程 ， 镜 像 制作 完成 后 ， 下 一 步 就 是 在 生产 环境 使 用 。 生 产 环 境 虚 拟 化 的 主要 形式 有 单机 虚拟 化 和 集群 虚拟 化 。 单 机 虚拟 化 是 生产 环境 使 
形式 ， 本 章 将 介绍 单机 虚拟 化 技术 ， 重 点 介绍 单机 虚拟 化 技术 及 应 用 场景 ， 第 18 章 介绍 集群 虚拟 化 技术 及 生产 环境 实践 。 


















































17.1 单机 虚拟 化 技术 与 应 用 场景 























最 广泛 的 虚拟 化 














什么 是 单机 虚拟 化 ? 单机 虚拟 化 ， 从 字面 上 理解 ， 首 先是 单机 ， 即 单 台 宿 主机 ， 其 次 是 虚拟 化 ， 连 起 来 就 是 由 单 台 宿 主机 实现 的 虚拟 化 方式 。 单 机 虚拟 化 一 台 宿 主机 就 是 一 套 虚 拟 化 体系 ， 这 台 宿 主机 






























































上 所 有 的 虚拟 机 ， 使 用 的 计算 、 内 存 、 存 储 、 网 络 资源 都 在 这 台 宿 主机 内 部 ， 单 机 虚拟 化 每 台 虚 拟 机 的 物理 边界 就 是 所 在 的 宿主 机 。 



















































































单机 虚拟 化 部 署 灵活 ， 性 价 比 非常 高 ， 是 生产 环境 应 用 最 广泛 的 虚拟 化 方式 ， 应 用 场景 非常 广泛 ， 主 要 有 以 下 场景 





“ 老 业务 迁移 到 虚拟 化 环境 ， 为 了 保持 业务 兼容 ， 保 持 IP 等 因素 不 变 。 
“ 物理 位 置 零散 分 布 的 业务 。 
“ 对 成 本 敏感 的 业务 。 


“ 对 性 能 要 求 非常 高 的 业务 。 


17.1.1 单机 虚拟 化 的 优势 和 劣势 


1 单机 虚拟 化 的 优势 


(1) 单机 虚拟 化 有 很 好 的 成 本 优势 











单机 虚拟 化 不 需要 额外 投入 存储 、 网 络 资源 ， 不 需要 另外 改造 现 有 的 网 络 结构 。 硬 件 成 本 、 时 间 成 本 、 人 员 投 入 成 本 都 是 最 低 的 ， 是 性 价 比 最 高 的 虚拟 化 方式 。 








(2) 单机 虚拟 化 具有 很 高 的 灵活 性 

















单机 虚拟 化 非常 灵活 ， 部 署 几 台 服务 器 就 可 以 搞 起 来 。 例 如 ， 经 常 碰 到 这 样 的 情况 ， 在 某 个 机 房 里 面 ， 有 一 批 非常 陈旧 的 服务 器 正在 运行 ， 这 批 服务 器 已 经 很 者 了 ， 而 且 全 部 都 过 了 



















































































本 书 第 7 章 介绍 的 P2V 技 术 ， 将 老 旧 的 服务 器 转换 成 虚拟 机 ， 业 务 环境 、IP 都 可 以 保持 的 和 原来 一 模 一 样 ， 而 对 于 业务 来 说 ， 只 需要 停机 一 段 时 间 即 可 。 


(3) 单机 虚拟 化 实现 简单 















































面 的 应 用 可 能 都 是 很 多 年 前 部 署 上 去 的 ， 环 境 非常 复杂 ， 可 能 维护 这 些 应 用 的 人 ， 已 经 更 换 了 好 几 批 ， 重 新 申请 新 的 服务 器 ， 重 新 部 署 业 务 难度 非常 大 。 单 机 虚拟 化 ， 在 这 种 场景 下 就 非常 合适 ， 可 以 采 


保修 期 ， 服 务 器 上 




















对 于 业务 初期 或 者 刚 开始 尝试 应 用 虚拟 化 技术 的 团队 ， 单 机 虚拟 化 技术 简单 ， 可 以 很 快 地 上 手 。 它 没有 复杂 的 架构 ， 宿 主机 就 是 一 台 配 置 符合 要 求 的 普通 服务 器 ， 要 使 用 KVM 虚 拟 化 ， 只 需要 安装 一 些 























必要 的 软件 包 即 可 ， 对 于 一 般 的 业务 运 维 ， 实 现 起 来 相对 简单 ， 可 以 在 很 短 的 时 间 内 ， 将 虚拟 化 部 署 起 来 。 


(4) 单机 虚拟 化 性 能 高 





不 同 的 业务 对 于 服务 器 的 压力 差别 是 非常 大 的 。 如 数据 库 服务 器 ， 压 力 一 般 多 来 自 磁盘 的 读 / 写 ; 游戏 的 GS (Game Server) 服务 器 压力 大 多 在 CPU; 视频 业务 服务 器 ， 压 力 都 在 内 
拟 化 性 能 高 的 优势 主要 体现 在 磁盘 和 网 络 。 























存 和 网 络 。 单 机 虚 





单机 虚拟 化 通过 硬件 配置 和 特有 的 虚拟 化 技术 ， 可 以 达到 接近 物理 机 的 性 能 ,能 很 好 地 应 对 这 些 性 能 压力 。 对 于 磁盘 读 / 写 压力 大 的 业务 ， 单 机 虚拟 化 宿主 机 上 可 以 通过 配置 SSD 硬 盘 ， 大 幅 提 升 虚拟 机 


的 读 / 写 性 能 。 单 机 虚拟 化 在 磁盘 性 能 方面 的 优势 是 ， 和 采用 共享 存储 的 方式 相 比 ， 单 机 虚拟 化 可 以 非常 灵活 地 调整 虚拟 机 独占 不 同 的 SSD 硬 盘 ， 达 到 和 物理 机 近似 的 性 能 ， 而 共享 存储 是 多 台 虚 拟 机 分 享 存 








储 资 源 ， 单 台 虚拟 机 的 磁盘 性 能 会 受到 限制 。 



































对 于 网 络 压力 大 的 业务 ， 可 以 通过 开启 网 卡 的 SR-IOV (Single-Root MO Virtualization) 使 虚拟 机 网 络 性 能 得 到 非常 高 的 提升 ， 而 SR-IOV 有 目前 的 特性 是 不 支持 迁移 的 ， 非 常 适 合 单机 虚拟 化 。 


(5) 单机 虚拟 化 故障 影响 面 小 





























nas, 


在 服务 器 运行 过 程 中 ， 故 障 是 不 可 避免 的 ， 一 旦 出 现 故 障 ， 影 响 范 围 有 多 大 ， 这 点 是 非常 重要 的 。 单 机 虚拟 化 时 ， 因 为 一 台 宿 主机 上 运行 的 虚拟 机 的 数量 有 限 ， 当 一 台 宿 主机 出 现 问题 的 时 候 ， 只 会 影 
响 这 人 台 宿 主机 上 的 虚拟 机 ， 对 其 他 的 虚拟 机 不 会 造成 影响 。 和 集群 虚拟 化 对 比 来 看 ， 集 群 虚拟 化 采用 集中 式 的 存储 ， 虽 然 出 现 问题 的 几率 比较 小 ， 但 是 一 旦 存储 、 网 络 出 现 问题 ， 整 个 集群 的 全 部 虚拟 机 都 















































会 受到 影响 。 





2. 单 机 虚拟 化 的 劣势 


(1) 单机 虚拟 化 难以 统一 管理 











灵活 性 带 来 的 另 一 个 问题 就 是 混乱 ， 宿 主机 在 物理 机 上 分 布 在 多 个 地 方 ， 在 网 络 上 分 布 在 多 个 网 段 ， 一 般 非 常 分 散 ， 不 方便 管理 ， 有 违 资源 的 整体 规划 原则 。 





(2) 单机 虚拟 化 故障 恢复 慢 ， 有 可 能 虚拟 机 彻底 丢失 























因为 虚拟 机 都 运行 在 单 台 宿 主机 上 ， 一 旦 这 台 宿 主机 出 现 问题 ， 恢 复业 务 时 间 周 期 比较 长 。 
































如 果 是 宿主 机 非 磁盘 硬件 故障 ， 有 两 种 恢复 方案 。 第 一 种 方案 是 将 虚拟 机 迁移 到 健康 的 宿主 机 上 ， 这 个 过 程 中 ， 虚 拟 机 是 不 可 用 的 ， 而 迁移 的 过 程 ， 实 际 是 文件 的 复制 ， 当 虚拟 机 文件 非常 大 的 时 候 复 























制 过 程 就 非常 漫长 。 第 二 种 恢复 的 方式 是 通过 备 机 ， 将 故障 宿主 机 上 的 硬盘 ， 全 部 换 到 备 机 上 ， 直 接 开机 ， 这 种 恢复 方式 相 比 虚拟 机 迁移 要 快 一 些 ， 但 是 对 于 品牌 多 样 的 服务 器 ， 每 种 者 


























要 准备 一 台 备 机 。 














如 果 非 常 不 幸 ， 发 生 极 端 情况 ， 宿 主机 多 块 硬盘 同时 故障 ， 那 虚拟 机 就 会 彻底 丢失 ， 只 能 从 备份 恢复 虚拟 机 ， 然 后 再 恢复 业务 数据 ， 这 种 情况 就 有 可 能 会 造成 业务 数据 丢失 ， 但 是 ， 一 般 发 生 这 种 情况 
的 几率 非常 低 ， 笔 者 在 几 年 的 虚拟 化 运 维 实践 中 ， 因 为 生产 环境 一 般 都 做 的 是 RAID10， 同 一 个 RAID1 组 两 块 磁盘 同时 故障 的 情况 ， 只 碰 到 过 一 次 ， 并 且 碰 到 这 种 情况 ， 还 可 以 使 用 应 用 层面 的 数据 进行 恢 



































复 ， 因 为 应 用 层面 都 是 每 天 备份 一 次 ， 所 以 ， 恢 复 的 时 候 ， 丢 失 了 将 近 一 天 的 数据 。 但 是 恢复 业务 也 用 了 7 个 多 小 时 。 



































宿主 机 上 ， 恢 复 时 间 也 比较 长 。 单 机 虚拟 化 的 详细 故障 恢复 方法 在 第 21 章 有 详细 介绍 。 























还 有 一 种 情况 ， 就 是 宿主 机 系统 故障 ， 需 要 修复 系统 ， 或 者 将 虚拟 机 镜像 文件 复制 到 备 


= 








17.1.2 单机 虚拟 化 技术 


1 单机 虚拟 化 磁盘 技术 








在 单机 虚拟 化 中 ， 虚 拟 机 的 硬盘 可 以 采用 目前 KVM 支 持 的 全 部 格式 ， 包 括 raw、qcow2、qed、 裸 盘 、Ivm 等 ， 每 种 格式 的 功能 和 性 能 在 第 5 章 做 了 详细 的 介绍 和 测试 ， 本 节 就 不 再 重复 介绍 了 。 一 般 情 
况 下 ,在 单机 虚拟 化 中 ， 建 议 优先 使 用 qcow2 或 者 lvm 裸 盘 的 方式 作为 虚拟 化 的 磁盘 ， 主 要 有 以 下 两 个 原因 。 

































































Q@qcow2 镜 像 文 件 在 宿主 机 上 实际 占用 空间 ， 默 认 是 按 需 占用 的 ， 除 非 添加 参数 preallocation=full， 才 会 预 分 配 空间 ,命令 如 下 : 

















[root@localhost ~]# qemu-img create -f qcow2 -o size-5G,preallocation-full test.qcow2 
Formatting 'test.qcow2', fmt-qcow2 size-5368709120 encryption-off cluster 
Size-65536 preallocation-'full' 

















Ilvm 从 CentOS 6.4 开 始 也 支持 精简 模式 ， 使 用 vm 方 式 主要 是 /O 性 能 比较 好 ， 一 些 /O 性 能 要 求 比较 高 的 虚拟 机 建议 使 用 vm 的 磁盘 方式 。 





























@qcow2、lvm 方 式 的 虚拟 机 硬盘 ， 支 持 快照 功能 ， 这 个 特性 方便 进行 虚拟 机 的 备份 和 恢复 。 


Oa 


gcow2 方 式 的 虚拟 机 创建 快照 备份 的 方式 有 两 种 ， 第 一 种 是 直接 使 用 virsh snapshot-create vm-name 命 令 来 创建 ， 过 程 会 锁定 虚拟 机 ， 这 个 方法 只 适合 在 业务 已 停止 的 情况 下 为 虚拟 机 做 备份 。 第 二 种 是 使 
用 virsh snapshot-create-as 命 令 将 当前 虚拟 机 运行 镜像 到 新 的 文件 中 ， 然 后 再 将 老 的 虚拟 机 镜像 文件 复制 备份 ， 再 使 用 virsh blockcommit 命 令 将 当前 镜像 合并 回 原 镜像 ， 但 是 CentOS 6/CentOS 7 系统 中 自 带 的 
qemu-img 命 令 版 本 及 Libvirt 版 本 不 支持 这 样 的 操作 ， 需 要 升级 qemu-img 到 2.0.x 版 本 以 上 ，Libvirt 到 1.2.8 版 本 以 上 才能 支持 。 














在 单机 虚拟 化 中 ， 针 对 极端 虚拟 机 磁盘 压力 情况 ， 可 以 为 宿主 机 配置 SSD 盘 。 虚 拟 机 直接 使 用 SSD 裸 盘 ， 可 以 有 效 地 提升 虚拟 机 的 磁盘 读 / 写 性 能 。 在 部 署 的 过 程 中 ， 对 于 重要 业务 ， 笔 者 一 般 在 每 台 宿 
主机 上 配置 4 块 SSD 盘 ， 做 RAID10， 以 应 对 虚拟 机 运行 过 程 中 突 发 的 磁盘 读 / 写 压力 及 磁盘 故障 。 




















2. 单 机 虚拟 化 网 络 技术 方案 














单机 虚拟 化 在 网 络 方面 非常 灵活 ， 本 书 的 第 4 章 介绍 了 KVM 网 络 虚拟 化 技术 ， 
等 。 在 第 4 章 中 ， 对 这 些 网 络 虚拟 化 技术 都 做 了 详细 的 介绍 ， 这 节 就 不 再 重复 介绍 了 。 





中 介绍 的 全 部 网 络 类 型 在 单机 虚拟 化 都 可 以 使 用 ， 如 Macvtap、Vhost-net、SR-IOV、Bridge、Open vSwitch， 等 

















上 面 列举 的 几 种 网 络 虚拟 化 技术 ， 从 功能 上 说 ， 最 强大 的 是 Open vSwitch， 它 可 以 结合 SDN 非 常 方 便 地 实现 虚拟 机 之 间 的 组 网 和 隔离 ， 从 性 能 上 来 说 ，SR-IOV 是 最 好 的 ， 测 斌 发现 ， 在 虚拟 机 为 Linux 
系统 的 情况 下 ， 虚 拟 机 的 网 卡 可 以 达到 物理 网 卡 90% 以 上 的 性 能 ， 从 配置 上 说 ,桥接 是 最 方便 的 ， 对 于 刚 开始 接触 虚拟 化 的 读者 来 说 ， 可 以 尝试 桥接 方式 。 其 他 几 种 网 络 虚拟 化 技术 用 的 相对 较 少 一 些 。 


Q.. 


SDN 软 件 定义 网 络 (Software Defined Network). ， 是 一 种 新 型 网 络 创 新 架构 ， 是 网 络 庶 拟 化 的 一 种 实现 方式 ， 其 核心 技术 通过 将 网 络 设备 控制 面 与 数据 面 分 离开 来 ， 从 而 实现 了 网 络 流量 的 灵活 控制 ， 是 
近 几 年 网 络 方面 正在 进行 的 革命 ， 是 未 来 网 络 发 展 的 方向 之 一 。 























3. 单 宿主 机 虚拟 机 迁移 方案 


单 宿主 机 迁移 方案 ， 根 据 虚 拟 机 的 状态 ， 可 以 分 为 两 类 ， 即 冷 迁移 和 热 迁 移 。 


























冷 迁移 需要 虚拟 机 关机 ， 然 后 通过 程序 、 脚 本 或 者 命令 ， 将 虚拟 机 的 镜像 文件 从 一 台 宿 主机 复制 到 另 一 台 宿 主机 ， 然 后 配置 虚拟 机 的 xm 配置 文件 ， 将 虚拟 机 在 新 的 宿主 机 上 开机 ， 整 个 过 程 就 完成 
了 。 需 要 注意 的 是 ， 新 、 老 宿主 机 上 的 网 卡 对 应 关系 ， 需 要 一 致 ， 否 则 ， 虚 拟 机 开机 后 网 络 会 不 通 。 




















热 迁 移 是 在 虚拟 机 运行 的 过 程 中 ， 在 线 将 一 台 虚 拟 机 从 一 台 宿 主机 上 迁移 到 另 一 台 宿 主机 上 ， 迁 移 过 程 对 虚拟 机 基本 没有 影响 。 例 如 ， 使 用 如 下 命令 ， 将 虚拟 机 vm_centos65x64 迁 移 到 宿主 机 
192.168.1.21 上 : 























[root@gcloud-qd-c1-169 ~]#/usr/bin/virsh --connect qemu:///system migrate 
--live --copy-storage-all --persistent --undefinesource vm centos65x64 
qemu*ssh://192.168.1.21/system 








虚拟 机 的 热 迁 移 技术 ， 最 初 只 在 有 共享 存储 的 集群 虚拟 化 场景 中 提供 支持 ， 在 CentOS 6.5 之 后 ， 开 始 支 持 对 无 共享 存储 环境 下 的 虚拟 机 热 迁 移 。 两 个 场景 虽然 不 同 ， 但 是 原理 基本 上 是 一 致 的 ， 只 是 无 
共享 存储 的 场景 下 ， 先 要 迁移 磁盘 存储 ， 然 后 再 迁移 虚拟 机 内 存 ， 消 耗 的 时 间 会 长 很 多 。 




















17.1.3 ”单机 虚拟 化 应 用 场景 



































单机 虚拟 化 的 应 用 场景 十 分 普遍 ， 包 括 目前 一 些 主流 的 公有 云 ， 也 都 采用 单机 虚拟 机 来 为 客户 提供 云 资源 。 本 节 介 绍 3 个 最 适合 的 应 用 场景 并 加 以 说 明 。 






























































(1) 场景 一 : P2V， 即 物理 机 转化 为 虚拟 机 





























这 种 情况 ， 通 常 是 因为 原本 的 物理 服务 器 年 代 久 远 ， 配 件 过 保修 期 或 者 停产 等 原因 ， 但 上 面 仍然 运行 了 一 些 系统 ， 这 些 系统 配置 非常 复杂 ， 几 乎 无 法 重新 部 署 。 这 种 情况 下 ， 最 适合 做 P2V， 将 原本 的 
物理 服务 器 用 虚拟 机 蔡 代 ， 因 为 单机 虚拟 化 非常 灵活 ， 将 P2V 后 的 虚拟 机 运行 在 单机 虚拟 化 上 非常 合适 。 






























































(2) 场景 二 : 高 性 能 应 
































对 于 负载 高 的 应 用 ， 使 用 单机 虚拟 化 是 非常 合适 的 ， 因 为 单机 虚拟 化 的 宿主 机 配置 的 定制 性 非常 强 ， 可 以 更 具 应 用 的 需要 ， 为 宿主 机 添加 配置 ， 如 磁盘 可 以 使 用 9SD 来 加 强 性 能 ， 网 卡 可 以 使 用 支持 SR- 
1OV 的 网 卡 ，CPU 可 以 选用 高 主 频 多 核 等 。 总 之 ， 单 机 虚拟 化 宿主 机 的 可 定制 性 强 ， 决 定 了 它 能 承载 更 大 负载 的 虚拟 机 。 

























































































(3) 场景 三 : 定制 化 业务 























这 类 应 用 一 般 与 业务 的 架构 有 关系 ， 例 如 ，Web 类 的 应 用 ， 一 般 在 业务 层面 都 会 考虑 负载 均衡 、 数 据 库 主 从 、Memcached 主 从 等 ， 以 保证 业务 的 可 用 性 ; 或 者 对 于 游戏 来 说 ， 很 多 游戏 都 有 分 区 分 组 
的 概念 ， 每 个 区 组 由 一 组 角色 的 服务 器 来 提供 服务 。 以 上 两 类 业务 就 非常 适合 机 虚拟 化 ， 因 为 服务 器 宕 机 是 无 法 完全 避免 的 ， 既 然 无 法 避免 ， 就 希望 一 旦 出 现 宕 机 的 情况 ， 对 业务 造成 的 影响 尽 可 能 
小 ， 从 这 个 出 发 点 看 ,可 以 将 Web 类 应 用 的 主 从 应 用 放 到 两 台 单机 宿主 机 上 ， 这 样 即使 一 台 宿主 机 宕 机 ， 业 务 至 少 可 以 保证 不 中 断 。 对 于 游戏 业务 ， 可 以 将 一 个 区 组 的 服务 器 放 在 一 台 单机 虚拟 化 宿主 机 
上 ， 宕 机 造成 的 最 大 危害 只 会 影响 一 个 区 组 的 游戏 ， 当 然 ， 如 果 游戏 架构 内 部 存在 宛 余 机 制 的 话 ， 宿 主机 宕 机 也 是 可 以 做 到 不 影响 游戏 的 。 




















































































































17.2 ”单机 虚拟 化 生产 环境 注意 虑 





单机 虚拟 化 在 生产 环境 的 使 























已 经 非常 普遍 ， 但 是 ， 在 使 





机 虚拟 化 之 前 ， 还 是 需 





























障 ， 提 高 稳定 性 、 可 用 性 是 最 终 的 目的 。 


T2251 


虚拟 化 的 灾 备 和 应 急 方 案 在 第 21 章 有 详细 介绍 ， 本 节 只 介绍 一 些 单机 虚拟 化 需 








单机 虚拟 化 灾 备 与 应 急 方案 


1. 单 机 虚拟 化 的 灾 备 


备份 是 一 个 老生 常 谈 的 话题 ， 对 于 所 有 的 线 上 业务 ， 都 必须 做 好 备份 和 恢复 的 准备 ， 在 单机 虚拟 化 的 场景 中 ， 这 点 也 非常 


首先 ， 需 














Q... 





特别 注意 的 地 方 。 








区 分 单机 虚拟 化 的 备份 和 业务 





层面 的 备份 ， 这 是 两 个 概念 ， 虚 拟 化 
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要 。 




















层面 的 备份 可 以 保证 虚拟 机 的 可 用 性 ， 但 是 虚拟 机 内 部 业务 层面 的 数据 一 致 性 还 是 需要 业务 层面 的 备份 来 保障 的 。 


























特别 值得 一 提 的 是 数据 库 应 用 ， 需 要 注意 ， 数 据 库 一 致 性 只 能 由 数据 库 备 份 来 保证 。 经 过 长 期 的 实践 发 现 ， 仅 靠 虚 拟 机 的 备份 ， 恢 复 后 数据 库 内 的 数据 有 非常 高 的 概率 是 不 一 致 的 。 


(1) 备份 策略 


对 于 虚拟 机 的 备份 ， 需 要 根 











届 业 务 类 型 、 业 务 时 间 段 来 做 





区 分 。 一 般 来 说 ， 对 于 身 


机 虚拟 化 ， 从 业务 分 类 来 看 ， 如 数据 库 类 应 





做 一 些 准备 和 故障 恢复 预案 ， 本 节 介绍 单机 虚拟 化 生产 环境 的 注意 点 ， 防 患 于 未 然 ， 尽 量 避 免 一 切 可 预见 的 故 















































， 那 么 备份 的 频率 不 需要 很 高 ， 在 业务 最 初 部 署 完成 测试 通过 后 ， 可 以 


做 一 个 备份 ， 发 生 故 障 的 时 候 ， 将 业务 层面 的 数据 恢复 回来 ， 业 务 便 能 恢复 。 需 要 分 时 段 进行 备份 的 业务 (如 Web 类 应 用 ) ， 通 常情 况 下 ，Web 类 应 用 产生 的 数据 变化 量 很 少 ， 但 是 会 定期 发 布 新 的 版 本 ， 
这 种 情况 下 ， 可 以 在 每 一 个 新 版 本 发 布 前 和 发 布 后 做 两 个 备份 ， 发 布 前 的 备份 可 以 作为 发 布 失败 后 的 回 滚 ， 发 布 后 的 备份 可 以 在 故障 发 生 时 用 于 恢复 。 在 游戏 业务 中 ，GS 这 个 角色 的 服务 器 也 非常 
种 备份 方案 。 


(2 


除了 备份 策略 ， 也 需要 介绍 备份 如 何 做 。 对 于 重 
备份 到 其 他 机 器 上 。 这 个 方法 操作 最 简 和 











备份 实施 

















和 R， 如 果 业 务 可 以 接受 停机 的 话 ， 



























































适合 用 这 














工具 Libvirt 已 经 提供 了 两 种 在 线 备份 虚拟 机 的 方案 ， 分 别 是 在 线 块 复制 和 在 线 外 部 快照 ， 在 第 21 章 都 有 详细 介绍 。 


2. 单 机 虚拟 机 的 应 急 方案 








应 急 方案 3 


故障 定位 。 一 般 来 说 ， 身 








要 包括 故障 定位 及 故障 恢复 。 


归 机 虚拟 化 的 故障 包含 虚拟 机 故障 和 宿 


























E 机 故障 两 大 类 ， 如 虚拟 机 故障 ， 首 先 需要 建立 完整 的 虚拟 机 与 宿主 机 的 关系 信息 ， 通 过 虚拟 机 的 IP， 能 很 快 找到 对 应 的 宿主 机 ， 





机 虚拟 化 ， 通 常情 况 下 ， 每 台 虚拟 机 的 硬盘 在 宿主 机 上 对 应 一 个 镜像 文件 ， 最 简单 的 备份 方案 是 虚拟 机 关机 ， 将 虚拟 机 硬盘 文件 复制 一 份 ， 然 后 将 文件 
这 种 方式 备份 是 不 错 的 选择 ， 但 是 ， 对 于 还 有 一 些 需要 7x24 小 时 不 能 停 的 业务 ， 用 上 面 这 种 方式 就 不 可 行 了 。 当 然 ，KVM 管 理 


然后 再 


由 宿主 机 连接 到 虚拟 机 的 VNC (远程 控制 软件 ) ， 查 看 虚拟 机 的 运行 状态 。 如 果 只 是 虚拟 机 系统 层面 的 故障 ， 处 理 方法 就 按照 一 般 服务 器 故障 处 理 ; 如 果 是 虚拟 机 死机 或 者 没有 响应 等 问题 ， 一 般 的 处 理 方 





法 是 重启 虚拟 机 。 对 于 一 台 宿 3 





机 上 多 人 台 虚 拟 机 同时 出 问题 的 情况 ， 那 么 就 需 

















考虑 问题 是 不 是 出 在 宿主 机 ， 或 者 宿主 机 网 络 上 。 





























故障 恢复 。 对 于 一 般 的 虚拟 机 故障 ， 通 常 处 理 方法 与 一 般 的 服务 器 故障 一 样 ， 在 虚拟 机 系统 内 部 找 原因 ， 或 者 重启 虚拟 机 。 对 于 宿主 机 故障 ， 如 果 是 宿主 机 的 CPU、 内 存 、 主 板 、 电 源 等 故障 ， 一 般 采 




















17.2.2 ”单机 虚拟 化 生产 环境 部 署 实践 


本 节 介绍 单机 虚拟 化 生产 环境 部 署 实践 ， 自 


更 换 部 件 来 解决 。 





1. 手 工 部 署 


手工 部 署 是 指 不 借助 任何 管理 平台 ， 手 工 独立 地 逐 台 部 署 宿 














定 含义 ， 如 以 
































机 虚拟 化 部 署 有 两 种 方式 ， 即 手工 部 署 和 通过 管理 平台 部 署 。 











机 。 这 种 情况 下 ， 可 以 编写 一 些 部 署 脚本 ， 在 脚本 中 定义 虚拟 机 的 配置 ， 然 
途 加 配置 加 IP 作 为 虚拟 机 的 名 称 。 例 如 ，web-2c-4g-192-168-10.11， 表 示 Web 类 应 用 ， 配 置 为 双核 ， 内 存 为 4G6B，IP 为 192.168.10.11， 这 种 命名 方式 可 以 非常 直观 地 看 到 虚拟 机 的 一 些 

















必要 信息 ， 一 旦 虚拟 机 出 现 问题 ， 可 以 快速 定位 并 处 理 。 对 于 虚拟 机 的 MAC 地 址 ， 可 以 采用 将 IP 转 换 为 16 进 制 的 方式 来 定义 虚拟 机 的 MAC， 这 样 做 可 以 方便 地 通过 MAC 地 址 来 定位 |P 地 址 ， 对 以 


排除 非常 有 用 。 




















2. 通 过 管理 平台 管理 单机 虚拟 化 


管理 平台 可 以 自主 开发 ， 也 可 以 使 


















































台 管 理 的 虚拟 机 ， 操 作 起 来 要 方便 很 多 ， 需 要 的 大 部 分 信息 都 可 以 通过 平台 来 查询 ， 当 出 现 问题 时 ， 也 可 以 快速 的 定位 问题 并 处 理 。 


以 上 介绍 的 两 种 使 
机 完整 的 生命 周期 管理 ， 但 是 平台 本 身 的 维护 、 管 理 和 稳定 性 ， 都 需 


























3. 笔 者 开源 的 单机 虚拟 化 部 署 脚本 


笔者 使 


https://github.com/xiaoli110/kvm_vm setup, 














(1) 脚本 功能 


脚本 可 以 完成 KYM 虚 拟 机 自动 部 署 ， 包 括 IP 注 入 配置 ， 主 要 功能 如 下 : 


“ 全 自动 的 完成 虚拟 机 生成 、 主 机 名 、IP 地 址 配置 。 


手工 部 署 方式 适合 业务 规模 不 大 的 情况 ， 自 动 化 程度 较 低 ， 但 是 操作 简 生 
合 有 一 定 虚 拟 化 运 维 经 验 的 人 来 使 用 。 


后 通过 脚本 来 创建 虚拟 机 。 这 种 情况 下 ， 虚 拟 机 名 就 需要 有 一 





后 的 故障 


一 些 开 源 的 平台 ， 本 书 第 11 章 、 第 12 章 、 第 13 章 介绍 了 主流 的 KVM 管 理 平台 ， 如 OpenNebula、Openstack、oVirt 等 ， 这 些 管理 平台 的 功能 都 非常 强大 。 通 过 平 





















































3 























Python 编写 了 一 套 单机 虚拟 化 部 署 脚本 ， 已 经 使 





前 ， 笔 者 生产 环境 的 单机 虚拟 化 都 是 通过 这 套 脚本 部 署 的 。 脚 本 已 经 开源 ， 部 署 在 github 上 ， 地 址 如 下 : 


- 支持 Windows 系 统 、RHEL 6/RHEL7、CentOS 6/CentOS 7、RHEL 6/RHEL 7 衍生 系统 、Ubuntu 系 统 的 部 署 ， 其 他 系统 未 做 测试 。 











(2) 脚本 使 用 环境 

















脚本 使 用 前 提 条 件 如 下 : 


* Windows、Linux 虚 拟 机 模板 系统 ， 需 要 按照 第 16 章 的 镜像 制作 方法 操作 。 








， 故 障 点 少 ;管理 平台 部 署 方式 适合 大 规模 部 署 ， 通 过 平台 可 以 实现 虚拟 


“ 宿主 机 上 ， 镜 像 、 虚 拟 机 的 存储 路 径 为 /datapool。 
“如果 要 使 用 vm，vg 的 名 字 必 须 是 vmvg。 


- 宿主 机 系统 只 支持 RHEL 6/RHEL 7、CentOS 6/CentOS 7, RHEL 6/RHEL 7 衍生 系统 ， 脚 本 通过 调用 Libvirt 配 置 虚拟 机 ， 通 过 guestfish 编 辑 虚 拟 机 镜像 ， 需 要 安装 虚拟 化 组 件 、Libvirt 组 件 、guestfish 组 
件 。 








(3) 脚本 的 使 用 方法 














1) 下 载 源 代码 。 脚 本 必须 用 root 用 户 运 行 ， 首 先 下 载 源 代码 ， 命 令 如 下 : 


























git clone https://github.com/xiaoli110/kvm vm setup 





2) 脚本 运行 环境 准备 。 环 境 准备 需要 运行 firsh.sh 脚 本 ， 会 自动 判断 是 CentOS 6 或 者 CentOS 7 操作 系统 ， 并 安装 虚拟 化 、Linux、Guestfish 组 件 ， 然 后 升级 操作 系统 到 最 新 。 

















安装 完成 后 重启 系统 ， 并 启动 libvirt 服 务 。 








service libvirtd restart 





3) 编辑 虚拟 机 配置 文件 。 虚 拟 机 配置 主要 通过 vm.csv 文 件 配置 ， 文 件 位 于 脚本 根 目录 下 ， 编 辑 vm.csv 文 件 ， 格 式 如 下 : 














#vmflag, template, name, diskl_size,disk2_size,mem size cpu num,nic type,nicl 
bridge,nic2 bridge,vnc port,outip, outmask, outgw,inip,inmask,ingw ni 

#vm template name must be ''win2003ent32chs' 'win2003ent64chs' 'win2008ent64chs' 
'centos56x64' 'ubuntul204X64' 

fkeyword vmLvm means create lvm for vm,default vg is datavg 

#keyword vmCpOnly means not resize images , just cp imaiges,default vg is datavg 
#kerword url: means download vm images path,like 

furl:http://172.16.1.100/ 

ftp:ftp://ftpuserl:password8ftp.myimages.com:10021/ 
ftp:ftp://ftpuser2:passwordftp.myimages2.com:10021/ 

# 此 处 如 果 指定 Url1， 会 到 Url 地址 上 去 拉 去 虚拟 机 镜像 ， 支 持 ftp 方 式 ， 拉 取 方 式 为 Url 加 镜像 名 字 ， 镜 像 名 字 为 下 面 虚拟 机 配置 文件 中 的 镜像 名 字 
# 可 以 指定 两 个 url1， 脚 本 会 自动 比较 多 个 Url 的 速度 ， 需 要 在 Url 里 面 放置 一 个 200MB 大 小 的 名 为 
"ratetest" 的 文件 

vm, win2003ent32chs, win2003-138, 20G, 20G, 2048, 2,e1000, brl,br1,5921,10.10.10.21,25 
5.255.255.0,10.10.10.1,192.168.122.138,255.255.255.0, none 

vmLvm, win2003ent32chs, virtl-1ab-222,10G, 10G, 2048,2,61000,br2,br2,59222,10.0.0.2 
22,255.0.0.0,10.0.0.1,172.16.2.222,255.255.255.0,none 

vmCpOnly, centos6564.qcow2, centos65-8, 30G, 20G, 2048, 2, virtio,brl,br1,59008,10.10.10.8, 
255.255.255.0,10.10.10.1,172.16.2.8,255.255.255.0, none 














解释 配置 文件 信息 ， 第 一 个 关键 字 意 义 如 下 : 
“vm 使 用 qcow2 方 式 ， 并 通过 guestfish 进 行文 件 系 统 的 扩展 。 
“vmLvm 使 用 lvm 方 式 。 


: vmCpOnly 使 用 qcow2 方 式 ， 直 接 复制 镜像 。 





第 二 个 关键 字 为 镜像 名 字 ， 建 议 名 字 包 含 操作 系统 信息 。 





后 面 的 配置 关键 字 依 次 为 虚拟 机 主机 名 、 第 一 块 磁盘 大 小 、 第 二 块 磁盘 大 小 、CPU、 内 存 、IP 配 置 等 信息 。 




















使 用 注意 事项 如 下 : 








“ 如 果 使 用 vm 关键 字 进 行 磁盘 扩展 ， 第 一 块 磁盘 必须 大 于 镜像 。 


“ 每 个 关键 字 必 须 有 内 容 ， 第 二 块 磁盘 也 必须 有 ， 最 小 为 1GB。 


“ IP 地 址 合法 性 本 脚本 不 作 检 查 。 


* CentOS 7 的 虚拟 机 只 支持 在 CentOS 7 的 宿主 机 上 进行 配置 。 








4) 运行 脚本 。 使 用 如 下 命令 运行 脚本 ， 就 可 以 自动 生成 虚拟 机 : 











python virtauto.py 





virtauto.py 帮 助 信息 如 下 : 





#python virtauto.py --help 

kvm vm setup script 

-h, --help print this 

--vg,assige vg name,such as --vg-datavg, vg-vmVG 

default vg name is 'datavg' if not assige 

# 指 定 vg 的 名 字 ， 目 前 只 支持 datvg， 后 面 可 以 支持 自 定义 vg 

--config,assige config file name ,such as --config-vm.csv 

config file must in same directory and must be csv 

default config file name is 'vm.csv' if not assige 

# 指 定 配置 文件 名 字 ， 如 果 没 有 指定 就 是 vm.csvVy 配置 文件 必须 是 csV 格 式 

--url,give path to download vm images,such as --url=ftp://userl:pass@172.16.1.100/ 
# 指 定 镜像 下 载 Ur1 地 址 ， 如 果 没有 指定 br1， 脚 本 会 认为 /datapool 已 经 有 指定 的 镜像 ， 如 果 
/datapool 下 面 也 没有 镜像 ， 就 会 报错 退出 





17.3 本章 小 结 























本 章 介绍 了 单机 虚拟 化 技术 的 特点 ， 总 结 了 单机 虚拟 机 的 优势 及 应 用 场景 ， 单 机 虚拟 化 适用 于 性 能 要 求 高 的 业务 ， 通 过 灵活 的 自 定义 宿主 机 配置 ， 可 以 为 虚拟 机 提供 更 高 的 性 能 。 灾 备 是 单机 虚拟 化 的 
弱点 ， 单 机 虚拟 化 的 备份 思路 主要 是 做 各 种 快照 ， 本 章 详细 举例 了 如 何 通过 外 部 快照 来 实现 虚拟 机 的 备份 。 

















通过 本 章 的 介绍 ， 读 者 可 以 判断 自己 那些 业务 是 否 适合 选择 单机 虚拟 化 方式 。 下 一 章 将 介绍 另 一 种 形式 的 虚拟 化 一 一 集群 虚拟 化 。 








第 18 章 KVM 虚 拟 化 集群 技术 与 应 用 场景 


本 章 将 为 读者 介绍 KVM 虚 拟 化 集群 在 生产 环境 中 的 应 用 场景 、 架 构 、 配 置 及 实施 流程 。 虚 拟 化 集群 的 搭建 与 运 维 ， 技 术 只 是 一 个 方面 ， 根 据 笔者 的 实践 经 验 ， 集 群 的 规划 设计 、 搭 建 流程 、 设 备 拓扑 资 
料 准备 及 更 新 都 是 虚拟 化 集群 能 否 稳定 运行 的 关键 因素 。 所 以 ， 本 章 的 内 容 不 仅 涉 及 KVM 虚 拟 化 技术 ， 还 涉及 商业 存储 选 型 与 运 维 、 虚 拟 化 集群 网 络 设计 与 设备 选 型 、 虚 拟 化 集群 服务 器 设备 选 型 、 虚 拟 化 
集群 搭建 流程 与 运 维 规范 等 多 个 方面 的 内 容 。 

















18.1 ”虚拟 化 集群 设计 思路 与 架构 






































使 用 虚拟 化 集群 的 目的 是 克服 单机 虚拟 化 的 局 限 性 ， 利 用 技术 手段 提高 虚拟 机 可 用 性 ， 最 终 达 到 业务 不 中 断 或 者 减少 中 断 时 间 ， 确 保 业 务 数据 更 安全 的 目标 。 








1. 虚 拟 化 集群 介绍 


(1) 什么 是 虚拟 化 集群 






































虚拟 机 集群 最 显著 的 特征 是 有 共享 存储 。 因 为 有 了 共享 存储 ， 虚 拟 机 就 可 以 实现 非常 快速 的 在 线 迁移 ， 并 在 虚拟 化 层 配置 高 可 用 。 笔 者 在 生产 环境 使 用 的 集群 有 两 种 存储 方式 ， 即 基于 商业 存储 和 基于 
开源 分 布 式 文件 系统 。 
































(2) 虚拟 化 集群 的 高 可 用 和 基于 应 用 层 高 可 用 的 区 别 
















































































高 可 用 是 经 常用 到 的 运 维 技术 ， 在 系统 、 网 络 、 数 据 库 、Web 业 务 等 各 个 应 用 层面 都 有 使 用 。 高 可 用 技术 至 少 有 主 、 备 两 个 节点 ， 当 主 节点 故障 的 时 候 ， 迅 速 切 换 到 备用 节点 。 为 了 避免 备用 节点 误 
判 ， 有 时 候 还 有 第 三 个 节点 ， 或 者 主 节 点 和 备用 节点 共同 能 访问 到 的 存储 空间 ， 用 于 仲裁 判断 。 应 用 层面 的 高 可 用 还 有 一 个 特点 ， 就 是 一 般 都 有 浮动 |P， 当 切换 发 生 的 时 候 ，IP 从 主 节点 漂移 到 备用 节点 。 
应 用 层面 的 高 可 用 一 般 切换 时 间 比 较 快 ， 从 几 毫 秒 到 几 秒 ， 同 时 ， 应 用 层面 的 高 可 用 一 般 需 要 专用 软件 ， 如 常用 的 Keepalived、Heartbeat 等 。 




















































































































































































































虚拟 化 层面 的 高 可 用 是 虚拟 机 系统 层面 的 高 可 用 ， 即 当 一 台 计 算 节 点 故障 的 时 候 ， 在 另外 一 台 计 算 节点 上 自动 将 故障 节点 上 的 虚拟 机 启动 起 来 。 注 意 ， 如 果 虚 拟 机 上 的 业务 不 能 做 到 开机 自 启 动 ， 即 使 
虚拟 机 自动 启动 了 ， 并 不 能 保证 业务 层面 的 自动 恢复 。 




















另外 ， 还 有 一 个 问题 ， 就 是 即使 虚拟 机 启动 起 来 了 ， 当 启动 到 一 半 时 虚拟 机 的 系统 卡 住 了 ， 也 不 能 及 时 恢复 业务 。 



































虚拟 化 层 高 可 用 的 一 般 业务 恢复 实际 是 系统 重启 的 时 间 ， 加 上 业务 开机 自 启 动 的 时 间 ， 通 常 是 分 钟 级 别 。 



































虽然 虚拟 化 层 高 可 用 有 业务 不 能 恢复 的 风险 ， 业 务 恢复 时 间 也 相对 比较 长 ， 但 是 ， 虚 拟 化 层 高 可 用 有 个 非常 巨大 的 优势 ， 就 是 不 需要 在 应 用 层面 配置 ， 大 大 地 拓宽 了 高 可 用 的 适用 范围 ， 使 原来 在 应 
慨 难 以 使 用 高 可 用 技术 的 应 用 ， 也 能 做 到 高 可 用 ， 尤 其 是 在 某 些 专用 的 软件 领域 。 
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其 实 ， 虚 拟 机 层 高 可 用 和 应 用 层面 高 可 用 并 不 矛盾 ， 在 虚拟 机 的 系统 里 面 












































也 可 以 配置 应 用 层面 的 高 可 用 ， 做 这 样 的 配置 的 时 候 ， 注 意 主 、 备 节点 要 放置 到 不 同 宿主 机 上 。 














(3) 虚拟 化 集群 后 端 存储 的 使 


















































最 早 的 时 候 ， 笔 者 在 生产 环境 使 用 的 集群 都 是 以 机 柜 为 单位 的 小 集群 ， 主 要 因为 笔者 一 直 搭 建 的 是 私有 云 ， 在 IDC 机 房 中 机 柜 都 是 要 计算 费用 的 ， 为 了 充分 利用 资源 ， 合 理 节省 成 本 ， 私 有 云 的 一 个 设 
计 思 想 就 是 能 够 按照 机 柜 ， 灵 活 地 扩展 或 者 伸缩 。 

















后 来 随 着 虚拟 化 的 规模 扩大 ， 也 进行 了 一 些 基于 开源 分 布 式 文件 系统 集群 的 搭建 ， 基 于 开源 分 布 式 文件 系统 的 集群 ， 规 模 可 以 更 大 ， 扩 展 性 更 好 ， 适 用 于 KVM 的 开源 分 布 式 文件 系统 在 第 9 章 、 第 10 章 
都 有 详细 的 介绍 。 开 源 的 虚拟 化 管理 平台 在 本 书 第 11 章 、 第 12 章 、 第 13 章 有 详细 介绍 ， 所 以 ， 本 章 不 再 介绍 开源 分 布 式 文件 系统 及 管理 平台 。 





























2. 使 用 虚拟 化 集群 的 优势 











虚拟 化 集群 相对 于 单机 虚拟 化 ， 有 以 下 几 点 优势 : 





: 快速 的 在 线 迁 移 (Live Migration) ， 设 备 、 系 统 维护 造成 的 业务 计划 内 停机 时 间 减 少 到 零 。 
-ATA (HA) ， 当 一 台 计 算 节点 故障 时 ， 上 面 的 虚拟 机 可 以 很 快 在 其 他 计算 节点 上 启动 运行 起 来 ， 极 大 缩短 计划 外 停机 时 间 。 


“ 动态 资源 调度 ， 业 务 负载 发 生 交 化 引起 计算 节点 压力 分 布 不 均匀 时 ， 可 手动 或 者 自动 平衡 物理 机 负载 。 也 可 在 整体 压力 较 低 的 时 间 段 ， 将 虚拟 机 集中 在 部 分 计算 节点 上 ， 将 不 用 的 计算 节点 临时 关 
闭 ， 达 到 节能 的 目标 。 


“ 业务 快速 部 署 ， 集 群 将 资源 池 化 ， 通 过 和 管理 平台 结合 ， 在 集群 的 容量 范围 内 ， 业 务 部 署 的 速度 非常 快 。 





“ 数据 更 安全 ， 后 端 存储 采用 宛 余 度 更 高 的 商业 存储 ， 或 者 分 布 式 文件 系统 ， 数 据 可 靠 性 可 以 达到 99.99% 以 上 。 


“ 网 络 速 度 、 可 靠 性 更 高 ， 集 群 网 络 采 用 宛 余 架构 ， 网 络 设备 、 网 络 连 接 都 是 双 宛 余 ， 网 络 速 度 更 高 ， 可 人 靠 性 也 更 高 ， 单 台 网 络 设备 、 单 根 网 线 、 单 个 网 卡 故 障 都 不 会 引起 网 络 中 断 。 
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(1) 什么 是 计划 内 停机 与 计划 外 停机 


计划 内 停机 是 指 可 预期 、 可 计划 的 停机 ， 如 定期 的 维护 ， 提 前 通告 的 维护 。 计 划 外 停机 是 指 突 发 事件 引起 的 停机 事件 ， 如 硬件 故障 ， 网 络 DDoS 攻击 等 。 一 般 计 划 内 停机 因为 是 提前 预知 的 ， 会 做 好 预防 
措施 ， 不 会 有 数据 丢失 ， 对 业务 的 损失 是 比较 小 的 。 计 划 外 停机 则 因为 是 突 发 事件 ， 对 业务 的 损失 要 大 很 多 。 运 维 的 重要 职责 之 一 就 是 通过 技术 手段 减少 计划 外 和 计划 内 停机 时 间 。 对 虚拟 化 来 说 ， 虚 拟 化 
集群 能 够 做 到 在 线 虚拟 机 迁移 ， 并 且 是 全 宛 余 设计 ， 需 要 计划 内 硬件 和 软件 维护 的 时 候 ， 可 以 做 到 计划 内 停机 时 间 为 零 。 当 宿主 机 发 生 紧 急 硬 件 故 障 的 时 候 ， 虚 拟 机 可 以 很 快 在 其 他 宿主 机 上 启动 起 来 ， 所 
以 ， 庶 拟 化 集群 也 能 有 效 降低 计划 外 停机 。 

(2) 在 线 迁 移 并 不 是 灾 备 手段 


在 线 迁 移 实 际 迁 移 的 是 虚拟 机 的 内 存 ， 当 宿主 机 发 生 故 障 的 时 候 ， 虚 拟 机 的 内 存 信息 已 经 丢失 ， 这 时 候 是 不 能 再 去 做 虚拟 机 的 在 线 迁 移 的 。 所 以 ， 在 线 迁 移 解 决 的 是 有 计划 的 维护 问题 ， 如 要 升级 宿主 
机 内 存 ， 可 以 将 宿主 机 上 的 虚拟 机 在 线 迁移 到 其 他 宿主 机 上 ， 内 存 升级 完成 后 ， 再 将 虚拟 机 在 线 迁移 回来 。 


3. 集 群 设计 与 架构 


(1) 虚拟 化 集群 设计 

为 保证 虚拟 机 尽量 的 在 线 时 间 ， 灵 活 的 扩展 ， 虚 拟 化 集群 的 设计 需要 满足 以 下 要 求 : 

“ 有 共享 存储 ， 虚 拟 机 能 够 在 线 迁移 。 

“ 通过 增加 计算 节点 、 存 储 、 网 络 设备 可 以 横向 扩展 。 

“ 没有 单 点 故障 ， 计 算 节点 有 多 个 ， 商 业 存储 为 双 控 制 器 ， 分 布 式 文件 系统 镜像 写 多 份 ， 网 络 设备 宛 余 。 
“ 性 能 满足 要 求 ， 并 且 通 过 增加 设备 ， 性 能 可 以 扩展 。 

(2) 虚拟 化 集群 的 架构 

一 套 虚拟 化 集群 体系 包括 以 下 组 成 部 分 : 

“ 若干 计算 节点 ， 承 载 虚 拟 机 的 计算 、 内 存 、 网 络 资源 。 

“ 管理 节点 及 管理 平台 ， 管 理 虚 拟 机 的 镜像 ， 虚 拟 机 生成 、 维 护 、 销 毁 的 生命 周期 ， 虚拟 机 的 调度 。 
“ 后 端 存储 ， 存 储 庶 拟 机 镜像 存放 。 


“ 网 络 设备 。 


18.2 ”虚拟 化 集群 的 实施 流程 与 技术 方案 


1. 虚 拟 化 集群 的 实施 流程 











虚拟 化 集群 相 比 单机 虚拟 化 复杂 很 多 ， 实 施 不 光 是 技术 实施 ， 也 需要 流程 的 管控 ， 应 将 实施 过 程 看 作 一 个 项 目 ， 按 照 以 下 流程 实施 : 
: 前端 计算 节点 方案 及 设备 选 型 。 
“ 后 端 存 储 方案 及 设备 选 型 。 


: 设备 及 清单 整理 。 





“ 设备 摆 放 及 网 络 拓扑 图 绘制 。 











sg 


署 搭建 及 测试 。 
“日 常 运 维 。 


2. 前 端 计算 节点 技术 方案 























虚拟 化 集群 前 端 计算 节点 可 以 使 用 普通 机 架 式 服务 器 ， 也 可 以 使 用 刀片 服务 器 。 

















(1) 机 架 式 服务 器 作为 计算 节点 的 优 缺 点 














使 用 机 架 式 服务 器 作为 计算 节点 的 优点 如 下 : 





“ 架构 简单 ， 安 装配 置 方便 。 


“ 扩展 节点 数量 和 升级 较为 容易 。 


“ 成 本 有 一 定 的 优势 。 





其 缺点 如 下 : 

: 随 着 节点 数量 的 增多 ， 占 用 的 机 柜 空 间 也 在 增 大 ， 单 位 机 柜 服务 器 密度 低 。 
“ 网 络 结构 复杂 ， 每 台 服 务 器 有 公 网 、 私 网 、 存 储 网 。 

“ 交换 机 端口 数量 多 ， 接 线 容易 出 错 。 


(2) 刀片 服务 器 作为 计算 节点 的 优 缺 点 














使 用 刀片 服务 器 作为 计算 节点 的 优点 如 下 : 

“ 刀片 服务 器 内 置 交 换 机 ， 可 以 灵活 的 配置 网 络 。 
“刀片 服务 器 连 线 简单 ， 占 有 交换 机 端口 数量 少 ， 网 络 非常 简 洁 。 
“ 单位 机 框 服务 器 密度 大 。 

© 功 耗 低 。 


“刀片 服务 器 完 余 电源 和 风扇 ， 宛 余 交 换 模 块 ， 是 全 宛 余 的 架构 。 








使 用 刀片 服务 器 的 缺点 如 下 : 








“ 配置 复杂 ， 安 装配 置 需要 专业 的 知识 。 


“ 往往 需要 改造 机 柜 电源 ， 并 人 受 限于 机 柜 最 高 电流 。 





另外 ， 目 前 还 有 一 种 多 节点 服务 器 ， 就 是 在 1U 或 者 2U 的 空间 里 面 ， 能 够 容纳 2~4 台 服务 器 ， 这 些 服务 器 很 像 是 刀片 服务 器 ， 共 享 电源 和 机 框 ， 但 是 网 络 接口 独立 。 多 节点 服务 器 密度 介 于 机 架 式 服务 器 
和 刀片 服务 器 之 间 ， 使 用 上 和 机 架 式 服务 器 完全 一 样 。 



































服务 器 的 配置 选 型 ， 根 据 笔 者 的 经 验 ， 选 择 比 较 高 的 配置 ， 虽 然 初 期 投入 高 ， 但 是 长 远 看 ， 因 为 能 够 容纳 更 多 的 虚拟 机 ， 其 实 是 节省 成 本 的 。 宿 主机 在 运行 一 段 时 间 后 ， 往 往 会 发 现 内 存 是 瓶 巴 ， 所 
以 ， 一 开始 配置 的 时 候 ， 内 存 尽量 配置 大 一 些 。 具 体 宿主 机 如 何 选 型 在 第 15 章 已 经 有 详细 的 介绍 ， 本 章 就 不 重复 介绍 了 。 























3. 后 端 存储 技术 方案 











虚拟 化 集群 的 后 端 存储 可 以 使 用 商业 存储 和 分 布 式 文件 系统 ， 商 业 存储 有 3 类 ， 即 NAS、IP SAN, FC SAN, 





(1) NAS 共 享 存储 





NAS (NETWORK ATTACHED STORAGE) 即 网 络 附加 存储 ， 网 络 上 直接 挂 接 的 存储 设备 ， 相 当 于 一 个 网 络 文件 共享 服务 器 。 












































测试 环境 可 以 用 一 台 普 通 的 主机 模拟 NAS， 只 要 这 台 主 机 有 自己 的 磁盘 和 文件 系统 ， 并 且 对 外 提供 访问 文件 系统 的 接口 。 最 常见 的 NAS 有 Linux 下 的 NFS 和 windows 下 的 CIFS。 


























(2) IP SAN 共 享 存储 

















SAN (STORAGE AREA NETWORK) 即 存储 区 域 网络 ， 主 要 是 基于 TCP/IP 的 网 络 来 实现 数据 存 取 ， 即 传输 介质 为 IP 网 络 。 通 过 IP 网 络 将 计算 节点 和 存储 设备 连接 起 来 ， 计 算 节点 通过 发 送 Block 1/069 
请 求 到 存储 设备 ， 最 常见 的 就 是 用 ISCSI 技 术 ， 计 算 节 点 通过 SCSI 协 议 发 出 读 取 数据 的 请 求 ， 并 用 TCP/IP 包 封装 SCSl 包 ， 就 可 以 在 TCP/IP 网 络 中 进行 传输 ， 即 SCSI over TCP/IP, 












































测试 环境 也 可 以 用 普通 服务 器 模拟 ISCSI 存 储 。 


(3) FCSAN 共 享 存储 





























FC (Fibre Channel 光 纤 通 道 ) SAN 类 似 于 IP SAN ， 只 是 以 光纤 作为 传输 介质 ， 性 能 较 高 ， 目 前 使 用 最 广 。 计 算 节 点 上 安装 光纤 接口 的 HBA (Host Bus Adapter， 提 供 服务 器 内 部 的 /O 通 道 与 存储 系 
统 的 MO 通道 之 间 的 物理 连接 ) 卡 ， 为 了 元 余 HBA 卡 一 般 有 两 块 ， 分 别 接 两 台 光 纤 交 换 机 ， 存 储 一 般 有 两 个 控制 器 ， 也 分 别 接 两 台 光 纤 交 换 机 ， 达 到 全 容易 的 目标 。FC SAN 计 算 节点 直接 将 MO 请 求 通过 FC 
网 络 发 送 到 存储 设备 ， 性 能 非常 高 。 









































(4) 生产 环境 如 何 选择 存储 类 型 


在 实际 部 署 的 生产 环境 中 ， 选 择 存 储 类 型 ， 取 决 于 以 下 几 个 因素 : 





“ 业务 性 能 及 可 靠 性 需求 。 


“ 预算 。 


“ 运 维 对 技术 熟悉 程度 。 





























一 般 来 说 ， 对 性 能 要 求 非常 高 的 业务 ， 使 用 FC SAN 存 储 ，FC SAN 存 储 也 是 成 本 最 高 的 一 种 方案 。 如 果 业 务 性 能 需求 稍 低 ， 可 以 使 用 NAS、IP SAN 的 存储 ，NAS、IP SAN 的 存储 是 性 价 比较 高 的 方 
式 。 如 果 业 务 主要 是 CPU 消耗 型 的 ， 可 以 考虑 使 用 分 布 式 文件 系统 ， 本 书 第 9 章 介绍 的 DRBD、GIusterFS， 第 10 章 介绍 的 Ceph， 工 作 都 很 稳定 ， 但 是 性 能 相对 比较 低 ， 很 适合 CPU 消耗 型 的 虚拟 机 。 






























































关于 NFS 和 1SCS1， 业 内 一 直 有 争论 ，NFS 配 置 简单 ， 但 是 ， 因 为 是 应 用 层 的 协议 ， 有 人 认为 性 能 低 ， 其 实 商业 存储 做 了 许多 优化 ， 性 能 也 不 见得 比 1SCSI 差 。 如 何 选择 主要 取决 于 预算 、 运 维 的 技术 习 
惯 、 具 体 的 存储 品牌 型 号 ， 笔 者 生产 环境 喜欢 使 用 ISCSI 存 储 。 


9... 


商业 存储 在 选择 的 时 候 ， 尽 量 选择 双 控 制 器 ， 因 为 选择 商业 存储 就 是 为 了 性 能 和 可 靠 性 ， 如 果 是 单 控制 器 ， 就 不 能 做 到 高 可 用 ， 在 控制 器 层面 没有 容 灾 。 另 外 ， 目 前 万 兆 已 经 是 趋势 了 ， 在 选择 IP 存 储 
的 时 候 ， 推 荐 选择 万 兆 网 络 。 



























































4 .虚拟 化 集群 设备 与 规划 


(1) 设备 清单 








设备 清单 是 技术 方案 的 重要 组 成 部 分 ， 集 群 搭建 前 ， 先 将 所 有 的 设备 整理 成 表格 ， 方 便 在 搭建 的 时 候 查 询 ， 也 方便 以 后 出 问题 的 时 候 核对 。 清 单 应 包含 搭建 集群 的 所 有 设备 ， 包 括 设备 型 号 、 配 置 、 数 
量 等 ， 如 表 18-1 所 示 。 





表 18-1 集群 设备 清单 
资源 准备 备 注 
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设备 信息 交换 机 
存储 
网 线 
IP 地 址 





网 络 及 机 房 信 息 
机 柜 





: 
im | | 





(2) 设备 摆 放 连接 | 
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息 ， 









































虚拟 化 集群 不 仅 是 技术 比 单机 虚拟 化 复杂 ， 就 是 物理 设备 的 摆 放 、 网 线 的 连接 也 要 复杂 很 多 。 在 上 线 之 前 ， 根 据 机 柜 的 高 度 和 每 个 机 柜 的 用 电量 ， 设 计 好 设备 摆 放 连接 图 ， 列 出 每 个 设备 的 具体 |P 信 
方便 现场 工程 师 按 照 连接 图 操作 ， 也 方便 有 问题 的 时 候 排查 ， 在 网 络 拓扑 发 生变 化 的 时 候 ， 应 及 时 更 新 图 表 。 























网 


如 表 18-2 所 示 为 集群 机 柜 后 视图 。 











表 18-2 机柜 后 视图 





XX 集群 机 柜 后 视图 
外 网 ”交换 机 
内 网 ”交换 机 
带 外 ”交换 机 





存储 ”交换 机 A 





存储 ”交换 机 B 


计算 节点 外 网 IP 内 网 IP 带 外 IP 存储 网 IP1 存储 网 IP2 


计算 节点 1 





计算 节点 10 





管理 节点 


ffWAA | | | | 











18.3 ”虚拟 化 集群 搭建 


183. 计算 节点 配置 与 管理 


1. 前 期 准备 


在 搭建 集群 前 ， 需 要 收集 业务 方 对 虚拟 机 数量 与 配置 的 要 求 ， 根 据 需 求 评估 集群 的 数量 、 计 算 节点 的 配置 、 后 端 存储 的 容量 ， 综 合 评估 需要 搭建 什么 样 的 集群 才能 满足 业务 方 的 要 求 。 

















为 了 后 面 章 节 容易 展开 ， 本 节 以 每 台 计算 节点 包含 4 个 干 兆 网 口 、 一 个 带 外 管理 口 ， 共 10 台 计算 节点 、 一 台 管 理 机 ， 使 用 商业 的 Dell Equallogic 1SCSI 存 储 ， 通 过 virt-manager 作 为 管理 平台 为 例 ， 介 




















绍 集群 的 架构 以 及 具体 的 搭建 步骤 。 


2. 计 算 节点 配置 


1) 环境 准备 。 首 先 需要 对 计算 节点 进行 必要 的 配置 ， 包 括 计算 节点 系统 更 新 、KVM 相 关 包 的 安装 ， 笔 者 生产 环境 计算 节点 使 用 的 是 CentOS 6.x， 命 令 如 下 : 

















# yum update -y 

Y 升级 到 最 新 系统 ， 并 安装 虚拟 化 组 件 

# yum -y groupinstall Virtualization "Virtualization Client" "Virtualization 
Platform" "Virtualization Tools" storage-client-iscsi 

# 安装 多 路 径 服 务 ，ISCSI 节 点 服务 、Python 开 发 包 

# yum -y install device-mapper-multipath virt-v2v iscsi-initiator-utils kvm 
libvirt.x86 64 libvirt-python.x86 64 python-virtinst.noarch kernel 























2) 新 建 运行 相关 程序 所 需 的 用 户 和 组 ， 设 置 相应 的 sudo 权 限 ， 操 作 步 骤 略 。 











3) 设置 监控 、 日 志 收集 的 计划 任务 。 设 置 系统 开机 自 启 动 服务 ， 如 messagebus、libvirtd、iptables、xinetd、portmap、multipathd、iscsid、iscsi、ntpd 等 ， 关 闭 其 他 不 需要 的 服务 ， 如 


ip6tables、gmp、cups 等 服务 以 节省 系统 资源 开销 ， 操 作 步 骤 略 。 


4) 配置 /etc/resolv.conf， 最 好 是 自己 搭建 的 DNS， 操 作 步 骤 略 。 


5) 同步 计算 节点 的 时 间 并 写 入 到 硬件 时 钟 中 。 





# cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 
# /usr/sbin/ntpdate pool.ntp.org 
# /usr/sbin/hwclock --systohc --directisa 


6) 修改 /etc/ssh/sshd_config 文 件 。 增 强 系统 安全 性 ， 包 括 Port、PermitRootLogin、AllowTcpForwarding、AllowGroups 等 ， 操 作 步 骤 略 。 


7) 计算 节点 针对 KVM 的 调 优 策 略 。 





# /usr/bin/tuned-adm profile enterprise-storage 





Q.. 


a 
3. 


tuned € CentOS 6 推出 的 调 优 工具 ， 可 以 简单 、 动 态 地 调整 系统 。 默 认 的 tuned 软 件 包 包 含 9 个 调 优 配置 文件 ， 对 laptop、desktop、server 系 统 的 省 电 策略 、 磁 盘 调度 算法 、 缓 存 、 内 存 脏 页 回 写 等 进行 调 

















这 里 选择 enterprise-storage 可 以 极 大 提高 |/O 吞 吐 量 的 模式 。 切 换 磁盘 调度 模式 为 deadline， 在 非 根 和 非 boot 分 区 上 关闭 |/O barriers ( 极 大 地 提高 |/O 吞 吐 量 ， 但 是 掉 电 后 会 产生 文件 丢失 ) ， 启 用 4 


(&readahead, 


8) 关闭 IPv6。 


4 echo "install ipv6 /bin/true" »»/etc/modprobe.d/disable ipv6.conf 
# sed -i 's/^NETWORKING IPV6-yes/^NETWORKING IPV6-no/' \ 7 
/etc/sysconfig/network = 

# echo "IPV6INIT-no" >>/etc/sysconfig/network 








9) 修改 内 核 参数 。 内 核 参数 调整 其 中 最 重要 的 两 个 参数 如 下 : 














net.ipv4.conf.$NIC2.rp filter 
net.ipv4.conf.S$NIC3.rp filter 














集群 设计 的 架构 是 第 一 块 网 卡 为 外 网 、 第 二 块 网 卡 为 内 网 、 第 三 、 四 块 网 卡 为 同一 网 段 的 连接 存储 的 网 卡 ， 不 设置 此 参数 将 导致 两 块 网 卡 不 能 同时 保持 与 存储 的 连接 。 











10) 另外 ， 还 包括 logrotate、ntp、yum 等 相关 设置 ， 请 读者 根据 实际 情况 进行 配置 。 


11) 关闭 virbr0。 安 装 和 开启 Libvirt 的 服务 后 会 自动 生成 virbr0， 宿 主机 上 所 有 的 虚拟 机 都 通过 virbr0 连 起 来 ， 默 认 情况 下 virbr0 使 用 的 是 NAT 模 式 ， 所 以 ， 这 种 情况 下 虚拟 机 通过 宿主 机 才能 访问 外 








ng 
En 














生产 环境 一 般 虚 拟 机 使 用 的 是 bridge 方 式 (网 桥 ) ， 所 以 ，virbr0 不 是 必须 的 ， 通 过 如 下 方式 可 以 关闭 virbr0: 





# virsh net-autostart default --disable 
# virsh net-destroy default 
# virsh net-undefine default 





12) 配置 |SCSI。 配 置 /etc/iscsi/iscsid.conf 文 件 ， 命 令 如 下 : 


# vim /etc/iscsi/iscsid.conf 

# 使 用 chap 协 议 

node.session.auth.authmethod = CHAP 

# 输 入 ISCSI 存 储 用 户 密码 

node.session.auth.username = username 

node.session.auth.password = password 

# 工 SCSI 的 发 现 ， 也 使 用 CHRP 协 议 ， 输 入 用 户 密码 

discovery.sendtargets.auth.authmethod = CHAP 

discovery.sendtargets.auth.username = username 

discovery.sendtargets.auth.password = password 

# 重 启 ISCSI 服 务 

# /etc/init.d/iscsid restart 

# 先 发 现 TSCSI 设 备 ， 然 后 挂 载 TSCSI 存 储 

# iscsiadm -m discovery -t st -p $STORAGE // $STORAGE 为 存储 的 IP 

# iscsiadm -m node -p $STORAGE -1 // 将 存储 挂 载 到 本 地 ， 此 时 在 本 地 应 该 可 以 
// 看 到 两 块 新 增加 的 磁盘 











13) 配置 计算 节点 的 外 网 网 桥 和 虚拟 机 的 外 网 子 网 桥 。 假 设 外 网 为 eth0， 内 网 为 eth1， 外 网 子 接 











为 111， 内 网 子 接 





// 配置 计算 节点 外 网 网 桥 
# vim /etc/sysconfig/network-scripts/ifcfg-ethO 
DEVICE-ethO 

BOOTPROTO-static 

ONBOOT-yes 

TYPE-Ethernet 

BRIDGE-brO 

# vim /etc/sysconfig/network-scripts/ifcfg-brO 
DEVICE-brO 

TYPE-Bridge 

BOOTPROTO-static 

IPADDR-SIPADDR 

NETMASK-$netmask 

ONBOOT-yes 

DELAY=0 

// 配置 外 网 子 接口 网 桥 ， 主 要 用 于 虚拟 机 的 外 网 桥接 

# vim /etc/sysconfig/network-scripts/ifcfg-eth0.111 
DEVICE-eth0.111 

BOOTPROTO-static 

ONBOOT-yes 

TYPE-Ethernet 

BRIDGE-br0.111 

# vim /etc/sysconfig/network-scripts/ifcfg-br0.111 
DEVICE-br0.111 

TYPE-Bridge 

BOOTPROTO-static 

IPADDR-SIPADDR 

NETMASK-$netmask 

ONBOOT-yes 

DELAY=0 

// 配置 计算 节点 内 网 网 桥 

# vim /etc/sysconfig/network-scripts/ifcfg-ethl 
DEVICE-ethl 

BOOTPROTO-static 

ONBOOT-yes 

TYPE-Ethernet 

BRIDGE-brl 

# vim /etc/sysconfig/network-scripts/ifcfg-brl 
DEVICE-br1 

TYPE-Bridge 

BOOTPROTO-static 

IPADDR-SIPADDR 

NETMASK-$netmask 

ONBOOT-yes 

DELAY=0 

// 配置 内 网 子 接口 网 桥 ， 主 要 用 于 虚拟 机 的 内 网 桥接 

# vim /etc/sysconfig/network-scripts/ifcfg-ethl.222 
DEVICE-ethl.222 

BOOTPROTO-static 

ONBOOT-yes 

TYPE-Ethernet 

BRIDGE-br1.222 

# vim /etc/sysconfig/network-scripts/ifcfg-brl.222 
DEVICE-br1.222 

TYPE-Bridge 

BOOTPROTO-static 

IPADDR-SIPADDR 

NETMASK-$netmask 

ONBOOT-yes 

DELAY=0 


Os 














为 222， 子 接口 数值 不 是 随便 配置 的 ， 必 须要 和 接 入 





层 交 换 机 的 VLAN ID 一 致 。 





为 什么 内 网 、 外 网 在 生产 环境 要 划分 VLAN? 划分 VLAN 的 目的 有 两 个 ， 第 一 是 将 宿主 机 网 络 和 虚拟 机 网 络 隔 离 ， 一 般 不 允许 宿主 机 和 虚拟 机 通信 ; 第 二 是 虚拟 机 之 间 也 可 以 通过 VLAN 隔 离 ， 保 证 不 同 


的 业务 在 不 同 的 VLAN 中 。 


14) 配置 Multipath 实 现 LUN 设 备 名 称 的 持久 化 。 为 了 提供 元 余 ， 服 务 器 会 通过 多 条 线路 和 存储 连接 ， 那 么 在 系统 中 就 会 发 现 多 个 存储 设备 ， 实 际 上 是 一 块 存储 设备 。Multipath 多 路 径 服务 














个 问题 ， 通 过 Multipath 服 务 ， 可 以 将 特征 形 同 的 多 块 存储 设备 聚合 成 一 块 设备 ， 然 后 给 系统 使 用 。Multipath 的 配置 过 程 如 下 : 











要 解决 这 





// 安装 multipath 所 需 的 安装 包 


# yum install device-mapper-multipath iscsi-initiator-utils -y 
// 加 载 multipath 模 块 

# modprobe dm-multipath 

# modprobe dm-round-robin 
# modprobe dm-service-time 


// 新 建 访问 接口 文件 ， 接 口 文 件 保 存在 /Var/1ib/iscsi/ifaces 目 录 中 


# iscsiadm 
# iscsiadm 


-m iface -I eth2 -o new 
-m iface -I eth3 -o new 


// 配置 jface， 通 过 eth2,eth3 两 个 接口 访问 

# iscsiadm -m iface -I eth2 --op-update -n iface.net ifacename -v eth2 
# iscsiadm -m iface -I eth3 --op-update -n iface.net ifacename -v eth3 
# 查看 文件 内 容 
/var/lib/iscsi/ifaces/eth2 


# cat 


iface. 
iface. 
iface. 
iface. 
iface. 
.iface num = 0 


iface 
iface 


iface. 
iface. 
iface. 


iface 


iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 


# cat 


iface. 
.net ifacename = 
iface.tran: 
iface. 


iface 


iface 
iface 


iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 
iface. 


iscsi ifacename = eth2 
net ifacename - eth2 
transport name — tcp 
vlan id - 0 

vlan priority - 0 


mtu = 0 

port = 0 

tos = 0 

ttl =0 

.tcp wsf = 0 

tcp timer scale = 0 


def task mgmt timeout 
erl-0 


first burst len -0 


max burst len - 0 


max receive data len = 


max outstanding r2t = 0 


0 


/var/lib/iscsi/ifaces/eth3 


iscsi ifacename = eth3 
f eth3 
transport name — tcp 
vlan id - 0 


.vlan priority = 0 


.iface num = 0 

mtu = 0 

port = 0 

tos = 

ttl =0 

tcp wsf = 0 

tcp timer scale = 0 


erl = 0 


first burst len = 0 
max outstanding r2t = 
max burst len = 0 


max receive data len = 


0 


def task mgmt timeout - 0 





通过 scsi id 命令 ， 查 询 1SCSI 设 备 id 号 ， 命 令 如 下 : 





# scsi id -g -u -s /dev/xxx 


// xxx 表 示 通 过 iscsiadm 发 现 并 挂 载 到 本 地 的 磁 瘟 


36000eb3d3cc8ala3000000000000002a 
# 编辑 multipathh.conf 配 置 文件 /etc/multipath.conf 


# vim 


/etc/multipath.conf 


defaults { 


find multipaths yes 


user friendly names no 


path grouping policy multibus 


polling interval 4 

udev dir /dev 

multipath dir /lib64/multipath 

verbosity 2 

path selector "service-time 0" 

path checker directio 

getuid callout "/lib/udev/scsi id --whitelisted --device-/dev/$n" 

prio ` const 

failback manual 

rr min io 1000 

rr weight uniform 

no path retry fail 

queue without daemon yes 

flush on last del no 

max fds - " 65536 

} 
devices { 

device { 
vendor "EOLOGIC" 
product "100E-00" 
path grouping policy multibus 

} 

device { 
vendor "LEFTHAND" 
product "iSCSIDisk" 


} 


l 
blacklist ( 
devnode "^ (ram|raw|loop|fd|md|dm-|sr|scd|st) [0-9] *" 


wwid "*" 
device ( 
vendor "IBM" 
product "3842" #DS4200 Product 10 
} 
blacklist_exceptions { 
wwid 36000eb3d3cc8a1a3000000000000002a 
// 此 处 填写 挂 载 的 设备 id 
device ( 
vendor  "EQLOGIC" 
product "100E-00" 
l 
} 
multipaths { 
multipath { 
wwid 36000eb3d3cc8a1a3000000000000002a 
alias ipsanmpl // 挂 载 设备 的 别名 


} 


} 
# /etc/init.d/multipathd restart // 此 时 在 /dev/mapper/ 下 面 会 多 出 一 个 卷 设备 ijpsanmpl 





3. 管 理 节点 配置 


— 


( 





虚拟 化 集群 的 存储 方式 




















使 用 clvm 方 式 。 


1SCSI 存 储 ， 管 理 节点 和 计算 节点 将 |SCSI 块 设备 挂 载 后 ， 虚 拟 机 镜像 存储 方式 可 以 采用 以 下 方式 : 
使 用 qcow2 方 式 ， 格 式 化 成 文件 系统 ， 然 后 庶 拟 机 以 qdcow2 的 方式 存储 。 


使 用 Ivm 方 式 ， 划 分 PV、VG， 每 个 虚拟 机 的 卷 划分 一 个 lv 使 用 。 





qcow2 方 式 的 优势 是 可 以 使 











qcow2 镜 像 的 优点 ， 如 精简 模式 ， 但 是 商业 存储 一 般 都 有 精简 模式 的 功能 ， 并 且 性 能 会 好 很 多 ， 所 以 ,使 


























qcow2 方 式 并 不 占有 优势 ， 反 而 











为 是 基于 文件 系统 ， 比 

















使 用 裸 设备 的 性 能 会 低 很 多 ， 所 以 ， 一 般 不 建议 在 虚拟 化 集群 使 用 qcow2 方 式 。 


























使 用 Ivm 方 式 ， 因 为 是 裸 设备 ， 性 能 要 好 很 多 ， 并 且 Ivm 支 持 在 线 快照 ， 从 块 设备 层面 多 了 一 种 灾 备 方式 。Ivm 方 式 有 一 个 缺点 ， 就 是 不 支持 对 同时 读 / 写 的 验证 ， 读 操作 的 时 候 ， 不 会 造成 验证 影响 ,但 
是 ， 如 果 是 两 个 计算 节点 同时 写 一 个 虚拟 机 的 lvm， 后 果 将 非常 严重 。 要 避免 这 个 问题 ， 需 要 在 管理 平台 上 进行 严格 的 限制 。 












































clvm 方 式 就 是 解决 集群 中 多 个 节点 同时 读 / 写 Ilvm 的 矛盾 ， 在 块 设备 层 做 了 限制 ， 但 是 因为 做 了 限制 ， 会 对 性 能 有 一 定 影响 。 






































在 生产 环境 使 用 vm 方 式 ， 经 过 验证 ， 许 多 开源 的 虚拟 化 管理 平台 ， 也 使 用 的 是 lvm 方 式 。 使 用 lvm 方 式 ， 主 要 是 出 于 性 能 考虑 。 








(2) 管理 节点 的 配置 





管理 节点 主要 是 虚拟 机 模板 镜像 的 管理 ， 配 置 过 程 如 下 : 









































@ 先 按照 计算 节点 的 配置 步骤 配置 管理 节点 ， 配 置 完毕 后 对 /dewmappevVipsanmp1 创 建 PV、VG，LVM 元 数据 包含 了 LVM 的 配置 信息 ， 默 认 情 况 下 ， 每 个 PV 中 保存 一 份 元 数据 ， 元 数据 以 AsCIlI 格 式 
存储 ， 元 数据 在 系统 上 会 保持 备份 ， 在 /etc/lvm 目 录 下 保持 最 新 版 本 ， 在 /etc/lvmyarchive 目 录 下 保持 旧版 本 ， 其 次 ， 在 磁盘 的 开始 扇 区 中 也 保持 元 数据 。 如 果 存 储 的 是 两 份 元 数据 ， 第 二 份 则 存储 在 磁盘 
的 最 后 面 ， 这 样 ， 当 通过 PVCREATE 等 操作 将 第 一 份 数 据 覆 盖 后 ， 可 通过 第 二 份 数 据 进行 恢复 ， 在 集群 中 将 元 数据 设置 保存 为 两 份 ， 命 令 如 下 : 






































# pvcreate --metadatacopies 2 /dev/mapper/ipsanmpl 
4 vgcreate vmVG $PV 





@ 修 改 /etc/Ivm/Ivm.conf 的 locking_type 参 数 ， 管 理 机 的 locking_type=1， 计 算 节 点 为 locking_type=4，1 表 示 对 vg 有 读 / 写 权限 ，4 为 只 读 权限 。 








# vim /etc/lvm/lvm.conf 
locking type = 1 





@@ 此 时 ， 在 管理 机 和 计算 节点 都 能 看 到 创建 的 PV 和 VG ， 接 下 来 ， 需 要 修改 主机 名 和 hosts 文 件 ， 将 管理 机 节点 和 所 有 计算 节点 的 主机 名 与 其 对 应 的 内 网 |P 配 置 到 /etc/hosts 文 件 中 ， 虚 拟 机 在 迁移 过 程 
中 是 以 主机 名 为 依据 的 ， 主 机 名 不 正确 则 无 法 迁移 虚拟 机 。 











4. 认 证 配置 











虚拟 机 的 在 线 迁 移 ， 可 以 通过 QEMU 层 进行 ， 也 可 以 通过 Libvirt 迁 移 ，Libvirt 层 的 迁移 支持 加 密 和 认证 ， 安 全 性 更 好 ， 一 般 在 生产 环境 使 用 Libvirt 层 迁移 的 方式 。Libvirt 层 的 迁移 需要 配置 认证 ， 认 证 有 
以 下 3 种 方案 : 





"TCP 方式 ， 迁 移 流量 直接 走 TCP 通 道 ， 没 有 加 密 。 


“SSH 方式 ， 迁 移 流量 走 SSH 通 道 。 


"TLS 方式 ，TLS 是 基于 证 书 的 加 密 ， 一 般 推荐 在 生产 环境 使 用 这 种 方式 。 


3 种 认证 方式 的 配置 方法 如 下 。 


(1) TCP 方 式 配 置 





TCP 方 式 是 比较 简单 的 一 种 配置 方式 ， 通 常用 于 测试 环境 ， 配 置 步骤 如 下 ， 需 要 对 集群 内 部 所 有 的 计算 节点 和 管理 节点 配置 : 





1) 配置 Libvirt 服 务 。 





# vi /etc/libvirt/libvirtd.conf 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
# 关 闭 tls， 默 认 是 开启 的 

listen tls= 0 

# 开 启 上 cp 认证 

listen tcp - 1 

#tcP 的 端口 配置 ， 默 认 端 口 是 16509 

tcp port = "16509" 

# 配 置 是 否 开局 口令 认证 ， 默 认 不 开局 

auth tcp - "none" 

dX rLemdns/aü4$, RUŽA 

mdns adv = 0 

http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 











如 果 需 要 开启 tcp 的 口令 认证 ， 也 可 以 采用 下 面 的 配置 方法 ， 集 群 中 每 个 节点 都 要 操作 。 


























fü 3 /etc/sysconfig/libvirtdxft:Pauth tcp 关 键 字 为 sasl: 

auth tcp = "sasl" # 使 用 sasl 作 为 tcp 的 连接 认证 方式 ，sasl 是 一 个 用 于 网 络 通信 协议 的 安全 验证 
# 增加 Libvirt 的 认证 用 户 

# echo PASSWORD |saslpasswd2 -a libvirt virtadmin@$HOSTNAME -p 








2) 配置 Libvirt 监 听 方 式 。 配 置 Libvirt 监 听 不 管 是 TCP、ssh、TLs 都 需要 配置 ， 命 令 如 下 : 





# 编 辑 /etc/sysconfig/1ibvirtd 文 件 
vi /etc/sysconfig/libvirtd 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


添加 以 下 内 容 ， 使 Libvirt 处 于 监听 状态 : 





LIBVIRTD ARGS-"--listen" 

# 编辑 /etc/1libvirt/qemu.conf 文 件 

# vi /etc/libvirt/qemu.conf 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





添加 以 下 内 容 ， 使 虚拟 机 带 外 VNC 默 认 监 听 0.0.0.0: 





vnc listen = "0.0.0.0" 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
# 重启 服务 ， 使 配置 生效 


# service libvirtd restart 





验证 配置 是 否 生效 ， 命 令 如 下 : 





virsh -c qemuttcp://node2/system list 








node2 为 同 集群 内 其 他 计算 节点 ， 如 果 能 连接 并 显示 node2 上 的 虚拟 机 信息 ， 说 明 配置 成 功 。 
(2) SSH 方 式 配 置 


SSH 方 式 走 的 是 SSH 通 道 ， 安 全 性 有 保证 ， 使 用 方法 如 下 : 





qemutssh://node2/system list 





如 果 生 产 环境 使 用 这 种 方式 ， 为 了 方便 管理 ， 建 议 对 集群 所 有 节点 直接 配置 免 密 码 SSH 认 证 ， 如 何 配置 资料 非常 多 ， 请 读者 自己 查找 参考 相关 资料 。 











(3) TLS 方 式 配置 


TLS 方 式 因为 要 生成 证 书 ， 配 置 比较 复杂 ， 步 骤 如 下 。 





1) 创建 授权 证 书 模板 文件 。 





cat certificate authority template.info 

cn = ks 

ca 

cert signing key 

expiration days - 3650 

# expiration days 不 指定 是 1 年 ， 可 以 自己 指定 时 间 





使 用 certtool 命 令 创 建 私有 证 书 文件 ， 命 令 如 下 : 





umask 277 && certtool --generate-privkey > certificate authority key.pem 














使 用 模板 文件 、 私 有 证 书 创建 授权 证 书 ， 命 令 如 下 : 








certtool --generate-self-signed V 
--template certificate authority template.info V 
--load-privkey certificate authority key.pem V 
--outfile certificate authority certificate.pem 

















删除 授权 模板 文件 ， 授 权 模 板 文件 在 证 书生 成 后 就 不 再 需要 使 用 ， 为 了 安全 起 见 ， 删 除 授权 模板 文件 ， 命 令 如 下 : 








rm certificate authority template.info 


























证 书 文件 放置 到 正确 的 位 置 ， 默 认 的 位 置 是 /etc/pki/CA/cacert.pem， 将 证 书 传输 到 第 一 个 集群 节点 并 配置 ， 命 令 如 下 : 























scp -p certificate authority certificate.pem someuser(hostl:cacert.pem 
# 在 host1 上 执行 以 下 命令 : i 

mv cacert.pem /etc/pki/CA 

chmod 444 /etc/pki/CA/cacert.pem 

# 如 果 开 放 selinux 执行 以 下 命令 : 

restorecon /etc/pki/CA/cacert.pem 





在 其 他 所 有 节点 上 执行 同样 的 操作 。 








2) 客户 端 证 书 创建 。 客 户 端 证 书 用 于 一 个 管理 节点 管理 多 台 宿 主机 的 情况 ， 操 作 步 又 如 下 : 





@ 创 建 模板 文件 ， 管 理 节点 模板 文件 。 





cat manager client template.info 
country = China 

state = GD 

locality = ZH 

organization = KS 

cn = webvirt 

tls_www_client 

encryption_key 

signing_key 

expiration days = 3650 





管理 节点 1 模板 文件 。 





cat nodel client template.info 
country = China . 

state = GD 

locality = ZH 

organization = KS 

cn = nodel 

tls www client 

encryption key 

signing key 

expiration days - 3650 








其 他 所 有 节点 也 需要 创建 模板 文件 。 


@ 创 建 私 铜 ， 创 建 node1 的 私 钥 。 





umask 277 && certtool --generate-privkey > nodel client key.pem 








其 他 节点 都 需要 按照 同样 的 方法 创建 私 钥 。 


@ 创 建 管理 节点 的 私 钥 。 





umask 277 && certtool --generate-privkey > manager client key.pem 





@ 创 建 公 钥 ， 创 建 node1 的 公 钥 。 





certtool --generate-certificate V 
--template nodel client template.info \ 
--load-privkey nodel client key.pem V 
--load-ca-certificate certificate authority certificate.pem V 
--load-ca-privkey certificate authority key.pem \ 
--outfile nodel client certificate.pem 





其 他 所 有 的 节点 都 需要 创建 公 钥 。 


@ 创 建 管理 节点 公 钥 。 


certtool --generate-certificate V 
--template manager client template.info \ 
--load-privkey manager client key.pem V 
--load-ca-certificate certificate authority certificate.pem V 
--load-ca-privkey certificate authority key.pem 
--outfile manager client certificate.pem 





公 钥 放置 到 目录 /etc/pki/libvirt/clientcert.pem 下 ， 私 钥 放 置 到 目录 /etc/pki/libvirt/private/clientkey. 


pem 下 ， 私 钥 、 公 钥 必 须 是 400 的 权限 。 传 输 私 钥 、 公 钥 到 对 应 的 服务 器 上 ， 命 令 如 下 : 





scp -p nodel client certificate.pem someuser8nodel:clientcert.pem 
scp -p nodel client key.pem someuserG8nodel:clientkey.pem 


#-P 为 保持 文件 修改 时 间 不 变 





在 node1 上 执行 如 下 命令 : 


mv clientcert.pem /etc/pki/libvirt 
clientkey.pem /etc/pki/libvirt/private 
chmod 400 /etc/pki/libvirt/clientcert.pem /etc/pki/libvirt/private/clientkey.pem 





所 有 的 节点 都 需要 执行 相同 的 操作 ， 然 后 ， 在 管理 节点 上 通过 以 下 命令 验证 配置 是 否 成 功 。 





virsh gemuttls://nodel/system 






































5 管理 平台 
计算 节点 和 管理 节点 都 配置 完成 后 ， 就 可 以 手工 创建 KVM 虚 拟 机 了 ， 最 简单 的 方式 就 是 使 用 Virt-Manager， 将 所 有 计算 节点 添加 到 管理 节点 的 Virt-Manager 中 。Virt-Manager 可 以 做 手工 的 在 线 迁 移 
及 高 可 用 ， 使 用 virsh 命 令 也 可 以 操作 。 为 了 方便 后 续 管理 和 大 批量 的 部 署 ， 需 要 将 管理 平台 相关 程序 部 团 到 各 节点 中 。 根 据 自己 的 业务 情况 开发 ， 也 可 以 使 用 开源 平台 ， 本 书 第 11 章 、 第 12 章 、 第 13 章 对 























流 的 开源 管理 平台 都 有 介绍 ， 一 般 开 源 平 台 要 和 业务 结合 得 比较 好 ， 需 要 根据 自己 的 需求 做 二 次 开发 ， 这 个 不 在 本 书 的 讨论 范围 


18.3.2 ”网 络 设计 与 配置 




















































































































之 内 ， 就 不 做 详细 介绍 了 。 








































































































1. 虚 拟 化 集群 物理 网 络 设计 与 配置 
虚拟 化 集群 的 外 网 、 内 网 、 存 储 网 核心 采用 Port Channel 技 术 ， 提 供 带 宽 的 同时 防止 因为 链 路 中 断 引 起 的 STP 收 敛 。 网 络 设备 选 型 上 以 提高 集群 高 可 用 性 和 容错 性 为 前 提 ， 采 用 主流 的 CISCO、H3C 设 
备 搭建 。 外 网 接 入 交换 机 一 般 采 用 CISCO 或 H3C 普 通 的 接 入 交换 机 ， 如 H3C S5120 或 者 CISCO 2960x 系 列 ， 如 果 数 据 中 心 采用 CISCO Nexus 交 换 机 系列 的 话 也 可 采用 7-5-2 架 构 。 内 网 接 入 交换 机 由 于 连接 
存储 及 主要 的 集群 内 网 ， 推 荐 使 用 具备 虚拟 或 堆 芭 功能 的 交换 机 以 提高 元 余 容 错 性 ， 如 H3C 的 IRF 技 术 、CISCO 堆 雷 或 者 VSS 技 术 ， 使 用 Nexus 7-5-2 架 构 的 话 即 采用 vPC 技 术 ， 皆 可 满足 需求 。 内 、 外 网 核 
心 交换 机 皆 采 用 的 是 数据 中 心 CLOS 架 构 的 交换 机 ， 如 CISCO 的 Nexus 7000 系 列 或 者 H3C 125 系 列 交 换 机 ， 整 个 数据 中 心 采 用 大 二 层 架 构 ， 便 于 虚拟 主机 的 漂移 和 灵活 性 。 
什么 是 vPC 和 VPC 


VPC (virtual port channel) 是 CISCO Nexus 的 新 技术 ,主要 作用 是 可 以 跨 不 同 设备 的 Port Channel 技 术 ， 并 且 收敛 更 快 。 


VPC (Virtual Private Cloud) 虚拟 私有 云 ， 是 公有 云 上 的 一 个 网 络 概念 。 

用 户 选择 公有 云 最 大 的 顾虑 是 安全 问题 ， 公 有 云 安全 包含 以 下 两 个 层面 。 

四 数据 安全 : 数据 会 不 会 被 窃取 ， 会 不 会 丢失 。 

为 使 用 公有 云 ， 依 靠 的 是 公有 云 的 服务 支持 ， 用 户 会 担心 ， 如 果 公 有 云 出 现 大 面积 的 问 


加 服务 安全 : A 


VPC 实际 上 是 基于 网 络 的 安全 解决 方案 ，VPC 将 同一 用 户 的 云 主 机 隔离 在 一 个 逻辑 网 络 内 部 ， 只 有 用 户 





VPC 和 VLAN 的 区 别 


区 另 


VPC 是 应 用 层 的 概念 ， 往 往 和 用 户 的 账号 绑 定 。VLAN 是 网 络 二 层 的 概念 ， 两 者 的 概念 很 像 ， 都 是 隔离 ， 


多 个 VLAN。 


题 ， 是 否 会 对 自己 的 服务 造成 影响 。 


自己 能 访问 自己 的 私有 网 络 。 


但 是 ，VPC 主 要 是 公有 云 不 同 用 户 之 间 的 隔离 ，VLAN 是 隔离 网 段 和 广播 流量 ，VPC 有 可 能 包含 


VPC 往往 使 用 SDN 技 术 。 用 户 可 以 在 自己 的 VPC 内 部 创建 自己 的 子 网 ， 按 照 自己 的 需求 分 配 IP、 创 建 路 由 表 、 配 置 安全 规则 等 。 


VPC 的 使 用 场景 
大 量 使 用 内 网 了 P 地 址 ， 只 将 需要 暴露 的 服务 通过 NAT 映 射出 去 。 
将 VPC 和 自己 的 企业 内 网 或 者 自己 的 私有 数据 中 心 打 通 ， 将 公有 云 变 成 自己 私有 云 的 一 部 分 。 


只 需 


通过 VPC 的 使 用 ， 可 以 从 网 络 层面 大 大 提高 用 户 使 用 公有 云 的 安全 性 ， 做 到 了 
2. 宿 主机 网 络 设计 与 配置 


物理 机 配置 4 块 网 卡 ， 前 两 块 为 内 、 外 网 卡 ，3、4 块 为 存储 网 卡 。 内 、 外 网 分 别 配置 网 桥 ， 并 根据 接 入 
常 通信 。 具 体 配置 可 以 参考 18.3.1 节 中 关于 网 桥 的 部 分 内 容 。 





在 18.3.1 节 中 ， 需 提前 去 申请 IP 段 ， 包 括 外 网 段 ( 即 宿主 机 和 
上 有 时 需要 有 两 个 内 网 IP。 








要 暴露 的 暴露 ， 不 需 


虚拟 机 外 网 段 ) 、 内 网 段 、 存 储 段 以 及 业务 内 网 段 (BD. 


要 暴露 的 完全 就 在 网 络 层 面 关闭 。 





层 交 换 机 的 VLAN ID 创建 子 接口 和 子 网 桥 ， 虚 拟 机 的 所 有 网 卡 分 别 桥接 到 对 应 的 子 接口 上 才能 正 




















虚拟 机 内 网 段 ) 。 一 般 会 配置 两 个 业务 内 网 段 ， 主 要 是 为 了 应 对 特殊 需求 ， 如 业务 





外 二 


关于 虚拟 化 实践 中 的 IP 地 址 问题 。 在 康 拟 化 实践 中 ， 往 往 因为 迁移 到 虚拟 化 环境 ， 在 单机 柜 内 部 ， 系 统 密度 大 大 提高 。 如 果 是 物理 机 ， 一 个 机 柜 最 多 十 几 台 服务 器 ， 消 耗 十 几 个 IP 地 址 。 但 是 ， 因 为 迁 
移 到 虚拟 化 环境 ， 一 个 机 柜 内 部 可 以 容纳 几 十 甚至 上 百 个 系统 ， 需 要 消耗 一 大 批 IP 地 址 。 如 果 IP 地 址 是 内 网 JP 还 好 处 理 ， 做 好 IP 地 址 规划 就 可 以 ; 如 果 需 要 的 是 公 网 卫 ， 就 需要 购买 大 量 的 IP 地 址 ， 这 也 是 一 
项 很 大 的 费用 。 但 是 从 全 意 考 虑 ， 同 虚拟 化 节省 的 大 量 硬件 成 本 对 比 ，IP 地 址 费用 只 是 一 小 部 分 。 权 衡 利 产 ，IP 地 址 购买 可 以 带 来 更 大 的 收益 。 


18.3.3 ”虚拟 机 迁移 管理 





虚拟 机 的 迁移 为 服务 器 的 虚拟 化 和 日 常 管理 提供 了 极 大 的 方便 ， 本 节 为 读者 介绍 基于 共享 存储 和 本 地 存储 的 虚拟 机 动态 、 静 态 迁 移 方法 。 
1. 虚 拟 机 的 动态 迁移 


(1) 什么 是 动态 迁移 








动态 迁移 (Live Migration) 也 叫 在 线 迁移 (Online Migration) ， 即 保证 不 中 断 业 务 的 情况 下 将 虚拟 机 从 一 台 宿 主机 迁移 到 另外 一 台 宿 主机 ， 整 个 过 程 对 用 户 是 透明 、 无 影响 的 。 通 常 ， 在 遇 到 宿主 
机 负载 高 、 故 障 、 配 置 升级 并 且 虚 拟 机 业务 不 可 中 断 的 情况 下 ， 需 要 动态 迁移 虚拟 机 。 














动态 迁移 又 可 分 为 基于 共享 存储 和 基于 本 地 存储 两 种 方式 ， 基 于 共享 存储 的 动态 迁移 在 迁移 过 程 中 虚拟 机 的 磁盘 因为 存放 在 共享 存储 中 ， 所 以 ， 虚 拟 机 磁盘 不 需要 迁移 ， 只 需要 将 存放 在 虚拟 机 内 存 中 


























的 数据 迁移 到 目标 宿主 机 上 即 可 ， 如 图 18-1 所 示 为 共享 存储 的 虚拟 机 迁移 示意 图 。 


基于 共享 存储 的 虚拟 机 迁移 示意 图 


源 答 主机 目标 答 主 机 














18-1 基于 共享 存储 的 虚拟 机 迁移 示意 图 





(2) 基于 共享 存储 的 动态 迁移 过 程 


基于 共享 存储 的 动态 迁移 过 程 ， 在 源 宿主 机 上 执行 迁移 命令 virsh migrate，10.10.10.20 为 目标 宿主 机 的 内 网 IP。 








# virsh migrate --live --copy-storage-all --unsafe --persistent centosl 

qemu*ssh: //10.10.10.20/system 
// centosl 运 行 在 共享 存储 的 lym 上 ， 需 要 注意 迁移 前 必须 保证 目前 宿主 机 的 Lvm 卷 是 激活 的 ， 可 以 通过 
// lvchange -ay lvmname， 不 执行 将 会 报 出 找 不 到 1vmname 的 提示 ， 虚 拟 机 磁盘 如 果 不 是 基于 Lvm 的 ， 
// 则 不 需要 此 步骤 











此 时 ， 在 目标 宿主 机 上 可 以 看 到 虚拟 机 目前 处 于 paused 状 态 ， 命 令 行 显示 如 下 : 





# virsh list 
Id Name State 


4 centosl paused 





在 目标 宿主 机 上 还 可 以 看 到 虚拟 机 迁移 进度 ， 命 令 行 显示 如 下 : 








#tail -f /var/log/libvirt/qemu/centosl.log 
isa-serial, chardev=charserial0, id=serial0 -device usb-tablet,id=input0 -vnc 
0.0.0.0:0 -vga cirrus -device intel-hda,id-sound0,bus-pci.0,addr-0x4 -device 


hda-duplex, id-sound0-codec0,bus-sound0.0,cad-0 -incoming tcp:[::]:49152 -device 
virtio-balloon-pci,id-balloon0,bus-pci.0,addr-0x7 -msg timestamp-on 

char device redirected to /dev/pts/1 

Receiving block device images 

Completed 100 $ 














当 虚 拟 机 迁移 完成 后 ， 可 以 看 到 虚拟 机 在 源 宿 主机 上 变 为 关机 状态 ， 在 目标 宿主 机 上 变 为 running 状 态 ， 显 示 如 下 : 





* virsh list -all // 源 宿主 机 
Id Name State 
centosl shut off 
* virsh list // 目标 宿主 机 
Id Name State 
4 centosl running 























在 迁移 过 程 中 一 直 ping 虚 拟 机 的 IP， 可 以 观察 到 在 切换 宿主 机 的 时 候 ping 会 卡 顿 ， 有 时 会 丢 几 个 包 。 如 果 虚 拟 机 中 部 署 有 数据 库 ， 应 用 程序 最 好 有 重 连 机 制 。 











动态 迁移 基于 共享 存储 设备 ， 目 的 是 加 速 迁移 的 过 程 ， 尽 量 减 少 宕 机 时 间 。 但 是 ,在 某 些 情 况 下 需要 进行 基于 本 地 存储 的 虚拟 机 的 动态 迁移 ， 这 就 需要 存储 块 动态 迁移 技术 ， 简 称 块 迁移 。 











基于 本 地 存储 的 动态 迁移 和 基于 共享 存储 的 动态 迁移 过 程 类 似 ， 只 是 本 地 存储 的 动态 迁移 同时 还 需要 将 虚拟 机 的 本 地 磁盘 迁移 到 目标 宿主 机 ， 迁 移 过 程 较 长。 目前 ， 在 云 计算 中 有 基于 本 地 存储 的 动态 
迁移 公有 云 ， 也 有 基于 共享 存储 动态 迁移 的 公有 云 ， 不 同 厂 商 从 成 本 和 技术 方面 有 不 同 的 考量 。 





2. 虚 拟 机 的 静态 迁移 


静态 迁移 也 叫 离线 迁移 (Offline Migration) ， 就 是 在 虚拟 机 关机 的 情况 下 从 一 台 宿主 机 迁移 到 另外 一 台 宿 主机 。 虚 拟 机 静态 迁移 又 可 分 为 基于 共享 存储 的 静态 迁移 和 基本 本 地 存储 的 静态 迁移 ， 基 于 
共享 存储 的 虚拟 机 静态 迁移 ， 虚 拟 机 磁盘 是 建立 在 共享 存储 上 并 且 是 关机 状态 的 ， 所 以 ， 并 不 需要 迁移 内 存 的 数据 ， 迁 移 瞬 间 完 成 ， 这 种 迁移 方式 简单 易 行 ， 适 用 于 对 服务 可 用 性 要 求 不 严格 的 场合 ， 如 医 


18-2 所 示 为 基于 本 地 存储 的 虚拟 机 迁移 示意 
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基于 本 地 存储 的 虚拟 机 迁移 示 蕊 图 


源 答 主机 目标 答 主 机 








18-2 基于 本 地 存储 的 虚拟 机 迁移 示意 图 











基于 共享 存储 的 静态 迁移 步骤 如 下 。 


源 宿 主机 上 线 关闭 虚拟 机 ， 并 备份 虚拟 机 的 xml 文 件 。 





virsh destroy centosl 
virsh dumpxml centosl > centosl.xml 
scp centosl.xml 10.10.10.10:/root/ // 将 虚拟 机 xml 配 置 文件 复制 到 目标 宿主 机 上 





目标 宿主 机 执行 如 下 命令 : 








lvchange -ay /dev/wmVG/lvmname // 虚拟 机 磁 瘟 文件 为 1vmname 
virsh define centosl.xml // 根据 xml 配 置 文件 创建 虚拟 机 
# virsh list --all 

Id Name State 


- centosl shut off 
virsh start centosl // 开启 虚拟 机 














关于 本 地 存储 的 静态 迁移 需要 在 虚拟 机 关机 的 情况 下 将 镜像 和 相应 的 配置 文件 复制 到 目标 宿主 机 上 ， 过 程 与 共享 存储 的 静态 迁移 类 似 ， 只 是 多 了 一 步 复制 虚拟 机 镜像 的 步骤 。 





18.34 ”虚拟 化 集群 的 备份 与 恢复 


份 。 


后 ， 





虚拟 化 集群 的 备份 因为 数据 都 是 在 后 端 存 储 上 ， 所 以 ， 集 群 的 备份 就 是 存储 上 数据 的 备份 。 开 源 分 布 式 文件 系统 因为 都 是 写 多 份 ， 或 者 有 自己 的 解决 方案 。 





























商业 存储 的 备份 有 两 种 思路 ， 一 种 思路 是 使 用 普通 的 廉价 存储 服务 器 ， 这 种 方案 成 本 低 ， 但 是 备份 过 程 时 间 长 、 效 率 低 ; 另 一 种 思路 是 利用 商业 存储 的 功能 ， 采 用 多 台 存 储 同步 或 者 异步 的 方式 进行 备 




















本 节 介 绍 商业 存储 的 备份 方案 ， 商 业 存储 以 Dell EqualLogic 为 例 。 


1. 存 储 服 务 器 备份 方案 














存储 服务 器 方案 ， 使 用 一 台大 于 或 等 于 商业 存储 容量 的 存储 服务 器 ， 作 为 商业 存储 的 备份 ， 这 里 称 为 备份 机 ， 计 算 、 管 理 节点 通过 1SCS| 挂 载 备 份 机 ， 利 用 商业 存储 的 快照 机 制 ， 管 理 机 挂 载 快照 ， 然 
将 快照 内 容 复制 到 存储 服务 器 中 ， 再 删除 快照 ， 如 图 18-3 所 示 为 集群 大 容量 磁盘 备份 方案 的 示意 图 。 


集群 大 容量 磁盘 备份 方案 








Dell EqualLogic 
存储 交换 机 A 
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图 18-3 ”集群 大 容量 磁盘 备份 示意 








(1) 备份 机 上 的 具体 设置 


1) 修改 内 核 参 数 文 件 /etc/sysctlhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15347/OEBPS/Text/..conf， 命 令 如 下 : 





net.ipv4.conf.default.rp filter = 0 
net.ipv4.conf.eth0.rp filter = 0 
net.ipv4.conf.ethl.rp filter = 0 

# sysctl -p 























2) 安装 iscsi 工 具 ， 命 令 如 下 : 








yum install scsi-target-utils sg3 utils sg3 utils-libs pere-Config-General libibverbs -y 





3) 编辑 target.conf 文 件 ， 将 磁盘 共享 出 来 。 





vim /etc/tgt/targets.conf 
«target iqn.2015-03-02.com.sdg:kvm-storagel» 


backing-store /dev/sdb // 备份 主机 上 的 sdb 盘 共享 出 来 

write-cache off 

initiator-address 10.10.10.0/24 // 只 有 10.10.10.0/24 网 段 可 以 挂 载 存 储 
</target> 





4) 开启 tgtd 服 务 ， 命 令 如 下 : 





# service tgtd start 
# chkconfig tgtd on 




















具体 实施 时 ， 在 集群 中 创建 一 台 虚 拟 机 专门 用 于 管理 集群 备份 和 恢复 使 用 ， 此 虚拟 机 将 同时 挂 载 Dell EqualLogic 快 照 和 备份 机 共享 出 来 的 磁盘 。 











(2) 挂 载 备份 机 磁盘 和 存储 快照 





A 


挂 载 备 份 机 的 磁盘 ， 命 令 如 下 : 





# iscsiadm -m discovery -t st -p 10.10.10.50 //10.10.10.50 为 备份 机 的 ip 
10.10.10.50:3260,1 ign.2015-03-02.com.sdg:kvm-storagel 


10.10.10.50:3260,1 ign.2015-03-02.com.sdg:kvm-storagel 
// 挂 载 备 份 机 共享 出 来 的 大 容量 磁盘 
# iscsiadm -m node -T iqn.2015-03-02.com.sdg:kvm-storagel -p 10.10.10.50 -1 





2) 挂 载 Dell EqualLogic 的 快照 ， 命 令 如 下 : 





iscsiadm -m discovery -t st -p 10.10.10.220 

10.10.10.220:3260,1 ign.2001-05.com.equallogic:0-1cb196-xxx 
10.10.10.220:3260,1 iqgn.2001-05.com.equallogic:0-1cb196-xxx 

# iscsiadm -m node -T iqn.2001-05.com.equallogic:0-1cb196-xxx -1 














使 用 scsi id 获取 快照 和 备份 机 磁盘 的 wwid， 命 令 如 下 : 








# scsi id -g -d /dev/sdc // sdc 为 挂 载 的 EQL 快 照 
36019cb71a0c1426cb80e85e291627alc 

# scsi id -g -d /dev/sdd // sdd 为 挂 载 备份 机 共享 出 来 的 磁盘 
1IET 00010001 





3) 配置 /etc/multipath.conf， 部 分 内 容 如 下 : 





blacklist exceptions { 


wwid 36019cb71a0c1426cb80e85e291627alc 
wwid "TIBET 00010001" 
device ( 


vendor  "EQLOGIC" 
product "100E-00" 
} 
} 


multipaths ( 
multipath { 
wwid 36019cb71a0c1426cb80e85e291627alc 
alias ipsanmpl snapshot 


} 

multipath { 
wwid "IIET 00010001" 
alias backupstorage 





启动 multipathd 服 务 ， 命 令 如 下 : 





# /etc/init.d/multipathd restart 
# chkconfig multipathd on 





4) 在 backupstorage 磁 盘 上 创建 和 快照 上 名 字 一 样 的 PV、VG、LV， 命 令 如 下 : 





创建 PV 

# pvcreate /dev/mapper/backupstorage 创 建 VG 

# vgcreate langchaoSTORAGE /dev/mapper/backupstorage 激 活 vmVG 

* vgchange -ay /dev/vmVG 根 据 EQL 快 照 上 lvm 的 名 字 、 数 量 和 大 小 ， 在 备份 机 上 创建 一 样 的 名 字 、 数 量 和 大 小 











5) 用 dd 的 命令 来 备份 集群 的 虚拟 机 ， 命 令 如 下 : 











dd if=/dev/vmVG/lvmxxx of-/dev/backupstorage/lvmxxx bs=1M 





恢复 的 时 候 需要 停止 所 有 虚拟 机 ， 在 所 有 的 计算 节点 中 修改 multipath 配 置 文 件 即 可 ， 开 启 虚 拟 机 。 





2. 多 台 Dell EqualLogic 备 份 方案 























EqualLogic 复 制 分 为 同步 复制 和 异步 复制 ， 这 里 主要 演示 如 何 使 用 异步 复制 的 功能 来 备份 集群 ， 如 图 

















18-4 所 示 为 Dell EqualLogic 备 份 方案 的 示意 图 。 为 了 描述 方便 ，Dell EqualLogic 下 面 简称 Eql。 


集群 Dell EqualLosgic 备 份 方案 
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图 18-4 EQL4-4 2: 3€ 055 3 E] 


























假设 Eql A 承 载 着 集群 ，Eql B 为 备份 ，EqI 的 异步 复制 具体 步骤 如 下 。 





先 配 置 Eq| A， 选 择 replication 选 项 ， 选 择 Configure partner， 如 图 18-5 所 示 。 

















填写 Eql B 的 group name (注意 大 小 写 ) 和 IP 地 址 ，* 号 为 必 填 项 目 ， 如 图 18-6 所 示 为 Eql partner 相 关 信 息 。 











FqualLogic Group Manager 


č Replication *- W^ Replication Partners 


6 Replication Partners 
z Hamm Activities 


R4 Replication Pa.. 之 


Administration 
Configure pa riner 
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Administration 
Modify partner settings 
Modify passwords 
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Delete partner 
Volume Replication 
Pause outbound 
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图 18-5 Eql Configure partner 


1 - Replication Partner Identification 


FEE BEC Partner identification 


* Group name: [x 


* Group IP address: 10.0.0.101 


Description: Shanghai EG replication backup 


Contact information 























418-6 Eql partner 相 关 信 息 








填写 Eql partner 的 验证 信息 ， 如 图 18-7 所 示 。 











2 - Authentication 


1 - General x inbound password 


Enter the password that will be used by the parme 
perform replication with this group: 


» 2.-Authentication 


Outbound password 


Enter the obtained partner's password that will be 
authentication to perform replication with the partne 




















418-7 Eql partnet 验 证 信息 











设置 Delegated space， 此 空间 设置 的 大 小 不 能 小 于 原 卷 的 2 倍 。 该 空间 是 用 来 存放 源 卷 data 数 据 的 专属 空间 ， 如 图 18-8 所 示 为 Eql partner 相 关 空 间 的 设置 。 











3 - Delegated Space 


1 - General Delegated space 


Optionally, you can store replicas from the partner. Enter the amount 
you want to delegate to the partner for storing replicas 


> 3- Delegated Space Delegated space: 3 | TB v | 


2 - Authentication 





Storage pool assignment 


Storage pool 


(9 storage poo: MW 


| Delegated spaceinuse 1 
| Free delegated space ome 


Available for borrowing 





图 18-8 设置 Eql Deleted space 





下 一 步 ， 单 击 “finish” 按钮 就 完成 了 Eql A 的 配置 。Eql B 的 操作 步骤 与 Eql A 相同 ， 需 要 注意 Delegated space 的 设置 ， 配 置 完成 Eql B 后 ， 两 边 的 复制 关系 就 建立 好 了 ， 如 图 18-9 所 示 为 建立 好 的 Eql 


partner 的 示意 
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B- & Volume Replication 


H- Outbound Replicas Total replication partners: 1 
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图 18-9 Eql partner 建 立 完成 后 的 示意 图 








下 面 开 始 配置 卷 的 异步 复制 ， 在 Eql A 的 卷 上 右 击 ， 选 择 Configure replication, 





























要 说 明 一 下 ， 关 于 每 个 复制 卷 都 有 副本 卷 保留 ， 大 小 约 为 正在 使 用 的 卷 空 间 量 ， 在 Eql B 上 委派 的 空间 为 15TB (上 面 的 步骤 没有 ) ， 这 里 把 4.35TB 的 委派 空间 分 配 到 Eql A 上 面 的 卷 做 副本 ， 一 般 是 副本 
卷 空间 量 2 倍 的 大 小 ， 如 图 18-10 所 示 ， 设 置 卷 保留 空间 。 






































keep failback snapshot 根 据 需要 选择 ， 这 里 选中 这 个 选项 的 作用 是 ， 当 Eql A 宕 机 后 ， 如 果 在 另外 一 台 Eql B 上 对 这 个 卷 做 了 replication ， 可 以 让 Eql B 上 的 卷 蔡 换 Eql A 上 面 的 卷 ， 等 Eql A 设备 正常 
后 ， 再 把 有 数据 变化 的 Eql B 上 面 的 卷 和 Eql A 上 面 的 卷 同步 ， 避 免 复 制 所 有 卷 的 内 容 ， 如 图 18-11 所 示 ， 配 置 Eql failback。 
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Modify volume replication settings a 


Volume .,. 


Advanced 


Replication partner. 


Current replica volume reserve: 5.07 TB 


Total replica reserve (*6 of replica volume reserve): 400 (min. 105%} 
(iij Replication partner REI 


Total repica reserve | 2027T1B| 2027TA "TIT 
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Local replication reserve ("e of volume reserve): 20 —— lg- 20059) 
Allow temporary use of free pool space 
(S) storage poo! emmmm 


E7 
Local replication reserve 
| Available for borrowing 





图 18-10 设置 卷 保留 空间 


Modify volume replication settings — 


Volume bjgm-c1-raid10-15t 


General Advanced 


The most recent complete replica will be retained in the local replication 
reserve to allow the partners to synchronize by replicating only changes. 





图 18-11 配置 Eqgl failback 


单 击 “finish” 按 钮 ， 完 成 设置 。 











在 Outbound 可 以 看 到 enabled， 表 示 已 完成 replicate， 如 图 18-12 所 示 ， 如 果 是 In-progress， 则 正在 replicate 数 据 。 















" Outbound Volume Replica Collections with bjgm-backup 
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图 18-12 ”进行 中 的 Eql 异 步 复制 




















过 段 时 间 后 ， 从 Eql 8B 的 Inbound 可 以 看 到 数据 传输 完毕 ， 如 图 18-13 所 示 为 完成 异步 复制 的 示意 
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关于 集群 恢复 ， 假 设 Eql A 因为 某 种 故障 无 法 提供 服务 ， 这 时 ， 只 需 将 虚拟 机 关闭 ， 计 算 节点 挂 载 Eql B 上 面 的 卷 ， 开 启 虚拟 机 ， 即 可 恢复 。 

















EE Replication ; * Inbound Volume Replicas with bjgm-group 
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pem: Pause inbound B) 2015-4-7 13:00:22 wf complete 


-B eem: d 2015-4-7 13:30:23 «f complete 
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图 18-13 ”Eql 完 成 异步 复制 示意 图 


184 Dell EqualLogic 存 储 的 管理 实践 经 验 




















Dell EqualLogic 是 一 款 性 价 比 非常 高 的 ISCSI 存 储 ， 笔 者 在 生产 环境 有 大 量 使 用 ， 也 积累 了 不 少 经 验 ， 本 节 分 享 下 笔者 这 方面 的 经 验 ， 同 时 读者 也 可 以 对 商业 存储 有 个 初步 的 认识 。 


























1.Dell EqualLogic 简 介 


























Dell EqualLogic 存 储 阵 列 定位 就 是 1ISCSI 存 储 ， 其 只 有 1SCSI 的 产品 线 ， 在 1SCSI 存 储 领 域 有 很 深 的 积累 ， 管 理智 能 自动 化 ， 并 具有 快速 灵活 的 可 扩展 性 。 























EqualLogic 的 一 个 特点 就 是 可 以 横向 扩展 ， 通 过 网 络 将 多 台 EqualLogic 存 储 阵列 组 合 到 一 起 ， 形 成 一 个 大 的 组 (Group) ， 共 同 对 外 服务 。 组 不 仅 易 于 管理 ， 并 且 组 中 所 有 阵列 可 以 互相 配合 工作 ， 















































动 管理 数据 、 跨 所 有 资源 平衡 负载 。 扩 展 组 后 ， 其 容量 和 性 能 会 自动 提升 ， 且 对 用 户 无 感知 。 新 成 员 的 存储 空间 添加 到 组 的 存储 池 中 ， 可 立即 投入 使 用 ， 如 图 18-14 所 示 为 只 有 一 个 成 员 的 组 。 












































图 18-14 ”包含 一 个 成 员 的 组 


要 连接 到 卷 ， 计 算 机 只 需要 标准 的 1SCSI 启 动 程序 ， 通 过 IP 地 址 、 启 动 程序 名 称 或 CHAP (挑战 握手 验证 协议 ) 凭证 限制 对 卷 的 访问 。 连 接 后 ， 计 算 机 会 将 卷 视 为 常规 磁盘 ， 可 以 对 其 进行 常规 格式 化 。 





图 18-15 包含 多 个 成 员 和 存储 池 的 扩展 组 


在 多 成 员 组 中 ， 成 员 之 间 会 根据 需要 自动 实现 负载 平衡 。 管 理 的 额外 开销 始终 相同 。 不 管 其 大 小 如 何 ， 均 可 通过 一 个 网 络 地 址 ( 称 为 组 IP 地 址 ) 将 组 作为 单一 系统 进行 管理 。 在 多 成 员 组 中 ， 可 以 将 空 
间 分 为 多 个 存储 池 ， 这 样 就 可 以 根据 用 途 来 整理 存储 空间 ， 从 而 更 好 地 控制 资源 分 配 ， 并 且 只 需要 在 单一 系统 管理 视图 中 进行 操作 。 成 员 和 卷 可 以 在 各 个 存储 池 之 间 移 动 ， 而 数据 会 始终 处 于 联机 状态 ， 如 
图 18-15 所 示 为 包含 多 个 成 员 和 存储 池 的 组 。 








2.Dell EqualLogic 初 始 化 


在 主机 上 创建 超级 终端 ， 使 用 默认 设置 (9600, 8, 7c, 1, 7c) ， 如 图 18-16 所 示 为 超级 终端 设置 。 





默认 的 初始 化 用 





户 名 和 密码 为 grpadmin， 登 录 即 可 进入 Eq| 的 界面 ， 如 





图 18-17 所 示 。 


图 18-16 








超级 终端 设置 


SP Loading ...Done 


Dell, Inc. Storage hrray 
Copyright 2001-2008 Dell, Inc. 


SP secondaria 38.65:psarcp.c:429:INF0:28.2.5:Executing secondary control module 


Feb 13 06:36:43 init: kernel security level changed from 0 to 1 


PS Series Storage flrrays 
Unauthorized flccess Prohibited 





login: _ 
图 18-17 登录 Eql 界 面 


配置 Group 初始 化 信息 ， 从 输入 setup 开 始 ， 如 图 18-18 所 示 。 


CLI> 





Group Manager Setup Utility 


It appears that setup was run previously, but it did not 
complete. Restarting setup. 


Enter the network configuration for the array. 


Member name []: 
Network ga L e 


IP address for i s i fn [1: 122.168.0.49) 
Netmask [255.255.255.01:[255.255.255.U- 


Default gateway [192.168.0.11: 


Initializing interface ethð. This may take a minute 


Enter the IP address and name of the group that the array will join. 


Searching to see if the group exists. This may take a few minutes. 





图 18-18 配置 Eql 





在 浏览 器 中 输入 Group IP 即 可 登录 Web 管 理 页 面 ， 如 图 18-19 所 示 。 














Log in to group bjgm-backup 


EqualLogic Group Manager 


User name: Password 


Encrypt communication 


T Adjust your screen resolution to at least 1280x800 for the best experience. 





图 18-19 ”登录 Web 管 理 页 面 














EqualLogic 非 常 强悍 的 一 个 功能 是 可 以 横向 扩展 ， 多 台 EqualLogic 组 成 一 个 大 组 ， 以 一 个 IP 对 外 提供 服务 ， 每 个 组 中 可 以 划分 若干 个 存储 池 (Poo 。 目 前 ， 一 个 组 中 最 多 支持 4 个 存储 池 ， 在 每 个 存 
储 池 中 可 以 划分 若干 个 卷 ， 卷 以 ISCSI 的 方式 挂 载 给 计算 节点 使 用 。 








(1) 异步 复制 





iE 


EqualLogic 的 异步 复制 功能 采用 的 是 快照 机 制 ， 可 以 做 到 最 低 5 分 钟 的 镜像 同步 ， 复 制 采用 的 是 尽快 复制 的 方式 ， 第 一 次 复制 会 占用 大 量 带 宽 ， 以 后 复制 占用 的 带宽 取决 于 变化 数据 量 。 如 果 需 要 在 生 
产 环境 中 使 用 ， 建 议 放置 在 同一 个 机 房 内 ， 并 且 保 证 足够 的 带宽 。 








































































































EqualLogic 的 快照 功能 是 基于 指针 方式 ， 理 论 上 对 性 能 没有 损失 ， 和 Linux 系 统 Ivm 快 照 采 用 的 写 时 复制 的 快照 机 理 不 一 样 ， 所 以 ， 可 以 多 份 快照 而 不 影响 性 能 。 


关于 快照 的 指针 方式 和 写 时 复制 (Copy On Write, COW) 方式 。 


快照 写 时 复制 的 方式 是 Linux 系 统 lvm 的 快照 方式 ， 即 有 快照 操作 的 时 候 ， 先 指定 一 个 块 设备 区 间 ， 如 果 是 读 操作 ， 还 是 读 取 原 来 的 数据 块 ; 如 果 是 写 操作 ， 先 把 原 块 设备 变动 的 地 方 复制 到 快照 区 间 ， 
再 对 原 块 设备 对 写 操作 。 写 时 复制 的 方式 ， 写 操作 的 时 候 ， 对 性 能 有 影响 ， 如 果 是 多 份 快照 ， 对 性 能 影响 更 大 。 


指针 方式 是 指 写 操作 的 时 候 ， 直 接 将 变化 的 部 分 写 到 快照 区 间 ， 然 后 在 原 块 设备 处 通过 指针 标记 ， 这 样 的 快照 没有 复制 过 程 ， 对 性 能 影响 要 小 很 多 。 所 以 ， 使 用 指针 的 方式 ， 要 比 传统 的 写 时 复制 好 很 
多 ， 这 种 方案 ， 目 前 笔者 只 在 一 些 商业 存储 上 看 到 应 用 。 


(2) 同步 复制 














EqualLogic 的 同步 复制 是 向 两 个 处 于 不 同 存储 池 中 的 卷 同 时 同步 的 写 入 数据 ， 如 果 其 中 一 个 pool 因 为 电源 或 其 他 原因 不 能 访问 ， 仍 然 可 以 从 另外 一 个 卷 中 获取 数据 。 同 步 复制 对 磁盘 压力 比较 大 ， 网 络 
带宽 要 求 也 高 ， 同 步 复制 采用 的 是 牺牲 性 能 来 保存 服务 高 可 用 的 策略 ， 在 对 数据 可 靠 性 、 安 全 性 要 求 非常 高 的 场景 可 以 使 用 同步 复制 功能 。 



















































































(3) 在 线 迁 移 卷 





Eql 支 持 同一 个 group 中 ， 不 同 存储 池 之 间 在 线 迁移 卷 ， 一 个 卷 可 以 在 提供 服务 的 同时 ， 实 现 从 一 个 存储 池 迁 移 到 另外 一 个 存储 池 。 每 个 卷 都 与 实际 的 存储 相对 应 ， 卷 迁移 实际 就 是 在 不 同 的 物理 存储 之 
间 迁 移 数 据 ， 这 个 功能 在 实际 应 用 场景 中 非常 实用 。 
























































在 线 迁移 卷 ， 可 以 在 存储 维护 期 间 实现 业务 零 中 断 ， 如 存储 控制 器 固件 升级 ， 硬 盘 固 件 升级 等 场景 ， 都 可 以 将 卷 先 迁 移 到 同一 个 group 中 的 其 他 存储 池 中 ， 待 升级 完成 后 ， 再 将 卷 迁移 回来 。 





























在 线 迁 移 卷 ， 可 以 实现 卷 性 能 的 动态 调整 。 假 定 这 样 一 个 场景 ， 当 一 个 业务 刚 上 线 的 时 候 ， 压 力 非常 大 ， 此 时 就 需要 将 这 个 卷 放 到 高 性 能 的 存储 上 ， 如 EQ 带 纯 SSD 的 型 号 ， 但 当 业 务 稳定 后 ， 压 力 下 
降 ， 最 终 趋 于 平稳 ， 此 时 ， 可 以 将 卷 迁 移 到 低 配置 的 存储 上 ， 如 EQ 带 大 容量 SATA 盘 的 型 号 ， 这 样 就 实现 了 根据 业务 压力 大 小 动态 的 调整 卷 性 能 ， 实 现 按 需 分 配 ， 在 成 本 和 灵活 性 上 表现 都 非常 出 色 。 









































卷 迁 移 对 网 络 的 可 靠 性 要 求 比较 高 ， 因 为 一 旦 网 络 断 开 ， 可 能 造成 数据 无 法 恢复 的 情况 ， 所 以 ， 要 在 具有 宛 余 设 计 的 网 络 中 做 卷 迁 移 。 











4.Dell EqualLo 























Dell EqualLogic 提 供 了 一 个 集中 监控 工具 SAN Headquarters (简称 SAN HQ) ， 通 过 SAN HQ 可 以 监控 到 当前 存储 的 运作 状态 ， 如 图 18-20 所 示 。 





Favorites Help 


FA SAN HQ Servers 
2-49 Default Server 

















©) Critical 
(O) Tarring 
(0) Caution 

B- Shi i Q) Information 


B- shzgroup £ F A 
Er Favorites Alerts Summ C ' Summary 





immary 


Replication Summary Volume IO Summary 











B Connected-1 - Disconnected-0 





图 18-20 SAN HQ 监控 EQ 
SAN HQ 的 功能 主要 有 以 下 几 点 : 
“ 存储 容量 信息 ， 包 括 group 容 量 使 用 情况 、 卷 容量 使 用 情况 、 快 照 容 量 使 用 情况 、 保 留 空间 使 用 情况 、 本 地 复制 空间 使 用 情况 。 
“ 同步 复制 汇总 信息 ， 展 示 的 时 候 ， 两 台 EQ 之 间 配 置 同 步 复 制 后 的 一 些 详细 状态 信息 。 
“ 硬件 及 固件 相关 信息 ， 主 要 包括 控制 器 固件 版 本 、 存 储 型 号 、 控 制 器 类 型 、 成 员 状 态 、 服 务 编号 、raid 状 态 、raid 级 别 、 硬 盘 信 息 等 。 
“ 卷 详细 信息 ， 主 要 详细 地 罗列 每 个 group 中 卷 的 详细 信息 ， 包 括 卷 大 小 、 使 用 空间 、 可 用 空间 等 。 


“ 卷 异步 复制 详情 ， 主 要 展示 的 是 异步 复制 卷 的 一 些 状态 


息 
$m 








“ 卷 L/O 性 能 信息 ， 展 示 了 每 个 group 中 各 个 卷 的 IO 情况， 包括 平均 I/O 知 吐 、 平 均 I/O 延 迟 、 平 均 I/OPS 压 力 、 平 均 I/O 大 小 等 


通过 SAN HQ 可 以 查看 存储 的 性 能 历史 数据 ， 从 中 判断 业务 的 负载 情况 ， 及 时 的 调整 存储 资源 分 配 策略 。 











在 SAN HQ 还 可 以 定义 报警 邮件 ,设置 某 些 阀 值 ， 及 时 地 给 管理 员 邮 件 提醒 。 如 果 购 买 了 高 级 服务 ， 报 警 邮件 可 以 发 给 DELL 的 800 工 程 师 的 值班 中 心 ， 值 班 中 心 的 工程 师 会 及 时 跟 使 用 方 工程 师 电 话 确 
认 ， 确 认 后 会 立即 下 单 维修 。 




















本 章 介绍 了 笔者 虚拟 化 集群 的 运 维 实 践 经 验 ， 同 单机 虚拟 化 方式 相 比 ， 集 群 虚 拟 化 支持 虚拟 机 在 线 迁 移 和 高 可 用 ， 业 务 可 用 性 更 高 ， 数 据 安全 更 有 保障 ， 同 时 维护 管理 更 复杂 ， 在 事件 的 运 维 工 作 中 ， 
需要 做 好 流程 和 规范 ， 以 保证 虚拟 化 集群 稳定 高 效 的 运行 。 














下 一 章节 将 介绍 如 果 把 现 有 业务 迁移 到 虚拟 化 环境 。 


























CERTE xl 业务 测试 


小 规模 部 轩 


ra 





虚拟 化 运 维 











19-1 业务 迁移 到 虚拟 化 的 流程 








业务 性 能 需求 评估 是 对 现 有 的 业务 进行 评估 ， 得 出 现 有 业务 的 压力 模型 。 虚 拟 化 方案 设计 是 确定 宿主 机 选 型 、 配 置 和 虚拟 化 比例 。 测 试 环境 测试 是 验证 业务 在 虚拟 机 上 逻辑 和 性 能 方面 没有 问题 。 上 线 





























前 制定 计划 和 checklist、 小 规模 部 署 、 全 面部 署 ， 是 为 了 保证 尽量 在 保证 业务 稳定 的 前 提 下 完成 切换 。 下 面具 体 介绍 每 个 阶段 如 何 实施 。 























19.1 ”性 能 评估 与 测试 环境 测试 








性 能 评估 可 以 通过 脚本 收集 业务 的 性 能 压力 数据 ， 也 可 以 通过 监控 系统 查看 长 期 的 数据 ， 具 体 的 数据 收集 方法 ， 已 经 在 第 14 章 做 了 介绍 ， 数 据 收集 分 析 之 后 ， 应 形成 测试 报告 。 


1. 性 能 评估 


下 面 是 一 个 x x 项 目 性 能 评估 报告 的 例子 ， 供 读者 参考 。 





第 一 部 分 : 项 目 情况 

















x x 项 目 架构 是 数据 库 使 用 MySQL 做 主 从 ， 使 用 两 台 高 配 服务 器 ， 其 他 所 有 的 角色 都 是 业务 服务 器 。 现 在 使 用 20 台 服务 器 ， 功 能 分 布 表 如 表 19-1 所 示 。 














表 19-1 XX 项 目 服务 器 功能 分 布 表 


用 B 区 Hox 数量 
业务 服务 天 业务 服务 硕 备 机 2 


DB DB 备 机 1 
Slave DB DEED UU 








业务 架构 图 (RR) 。 











第 二 部 分 : 性 能 分 析 














在 压力 最 大 的 区 组 抓 取 了 高 峰 时 期 的 物理 机 性 能 数据 ， 并 且 抓 取 了 监控 系统 一 个 月 相应 的 性 能 图 ， 相 互 对 比 ， 分 析 结 果 如 下 。 











(1) 业务 服务 器 性 能 数据 














如 图 19-2 所 示 的 是 CPU 压力 最 大 时 的 一 组 数据 。 
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图 19-2 ”业务 服务 器 CPU 高 峰 压 力 数 据 
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司 19-3 所 示 的 是 一 个 月 内 CPU 使 用 率 。 

















system p 
in cs us sy id wa st 
0 0 7 197 0 
102298 174533 11 3 86 
105192 181761 11 3 87 
102838 175409 11 3 86 
96123 171132 11 2 87 
101826 160840 13 2 85 
88252 145873 12 3 85 
92289 152471 12 4 84 
90228 146561 12 4 84 
103789 157650 12 3 85 
98299 155926 11 3 86 





pYy 1 ERU 











19-3 ”业务 服务 器 CPU 月 压力 数据 











如 图 19-4 所 示 的 是 磁盘 压力 最 大 时 的 一 组 数据 。 





avg-cpu: Xnice Xsystem Xi i Xidle 
0.00 1.44 : . 91.72 


Device: rrqm/s — wrqm/s rkB/s avgrq-sz avgqu-sz 
sda 114.07 E $ 145.84 21.55 0.10 
dm-0 , 0.00 K 145. 54 9.86 1.24 
dm-1 3 0.00 š 0.29 8.00 0.00 


avg-cpu: %user %nice Xsystem Xiowait %idle 
12:13 0.00 2.41 . è 85.39 


Device: rkB/s avgrq-sz avgqu-sz 
sda ; : 0.00 8.5 0.20 


dm-0 . . . 0.00 8.00 0.27 


dm-1 š : 0.00 b 0.00 0.00 


avg-cpu: Xuser  Xnice Xsystem xi i %idle 
11. 38 0.00 2.50 s 0.00 86.13 


Device: rrqm/s | wrqm/s rkB/s wkB/s avgrq-sz avgqu-sz await 
sda 0. f Š 0.00 278.00 13.56 0.01 0.12 
dm-0 2 . : 0.00 278.00 8.00 0.00 0. 06 
dm-1i i 3 : . 0.00 0.00 0.00 0.00 0.00 
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图 19-5 ”业务 服务 器 磁盘 月 压力 数据 





如 图 19-6 所 示 的 是 内 存 压力 最 大 时 的 一 组 数据 。 





total free cached 
Mem: 132119028 131717804 401224 52975144 


-/* buffers/cache: 78564236 53554792 
Swap: 65535996 853804 64682192 











19-6. 业务 服务 器 内 存 峰 值 数据 














如 图 19-7 所 示 的 是 一 个 月 内 内 存 使 用 情况 展示 。 

















126.0 GB 


100.0 GB 
80.0 GB dd z Ww e | 
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0B 
图 19-7 业务 服务 器 内 存 月 使 用 量 数据 


如 图 19-8 所 示 的 是 网 卡 压力 最 大 时 的 一 组 数据 。 





07:50:08 txpck/s txcmp/s rxmcst/s 
07:50:10 0.00 0.00 
07:50:10 4757.81 
07:50:10 0.00 
07:50:10 187.50 
07:50:10 0.00 








图 19-8 业务 服务 器 网 卡 峰 值 数 据 
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图 19-10 业务 服务 器 外 网 网 卡 月 发 包 数据 


如 图 19-11、 图 19-12 所 示 的 是 一 个 月 内 内 网 网 卡 吞吐 和 发 包 数 据 。 








图 19-11 业务 服务 器 内 网 网 卡 月 流量 数据 


cel 





图 19-12 ”业务 服务 器 内 网 网 卡 月 发 包 数据 


业务 服务 器 性 能 分 析 结果 如 表 19-2 所 示 。 


表 19-2 ”业务 服务 器 性 能 分 析 结果 


alius 业务 服务 器 业务 环境 数据 最 大 值 参照 
BIR ES-2640 BN = 
CPU 
CPU RU r00% 
- 
内 存 
THER T 
LIST - 
磁盘 
20ms 
Dm [ sw — | 1M 
1 
ali wa | s. [ 10M 
1000M 
网 卡 2 


结论 : 从 性 能 分 析 结 果 看 ， 业 务 服务 器 CPU 压力 比较 高 ， 网 卡 流量 相对 较 高 ， 磁 盘 压力 较 低 。 
(2) DB 性 能 数据 ( 略 ) 。 

DB 性 能 分 析 结果 ( 略 ) 。 

(3) 所 有 xx 项 目 服务 器 CPU 和 网 络 高 峰 使 用 情况 统计 

xx 项 目 服务 器 CPU 和 网 络 高 峰 使 用 情况 统计 样 表 如 表 19-3 所 示 。 


表 19-3 ”业务 服务 器 性 能 分 析 结果 


服务 器 角色 CPU 使 用 率 /% 


业务 服务 器 1 NN. 
(H) EE 
DB 服务 器 1 EE 
C El 








实际 操作 的 时 候 ， 建 议 读者 应 收集 每 台 服务 器 的 流量 和 CPU 使 用 率 数 据 。 














T 


(4) 虚拟 化 比例 的 确定 














根据 性 能 分 析 结 果 ， 根 据 压力 大 小 ， 采 用 2~6 台 GS 类 服务 器 搭配 一 台 DB 服 务 器 ， 按 照 平均 1 虚 5 的 方式 虚拟 化 是 比较 合适 的 方案 。 








虚拟 化 的 时 候 ， 业 务 服务 器 每 台 分 配 4 个 CPU、8G 内 存 、100GB 磁 盘 空 间 ; DB 服务 器 每 台 分 配 4 个 CPU、32GB 内 存 、500GB 磁 盘 空 间 。 
2 .进行 测试 环境 测试 的 必要 性 


虚拟 化 的 实施 是 一 个 循序 渐进 的 过 程 ， 大 多 数 业 务 一 般 都 有 测试 环境 ， 先 将 测试 环境 切换 到 虚拟 化 平台 ， 就 是 正式 战争 前 的 演练 ， 演 练 得 越 充 分 ， 取 得 战争 胜利 的 几率 就 越 大 ， 所 以 ， 进 行 测试 环境 的 
虚拟 化 测试 是 非常 必要 的 。 





























无 论 对 虚拟 化 技术 掌握 的 多 好 ， 无 论 对 业务 是 如 何 的 熟悉 ， 直 接 跳 过 测试 环境 ， 上 正式 环境 都 是 不 可 取 的 。 根 据 笔 者 的 经 验 ， 每 上 一 个 虚拟 化 项 目 ， 都 有 许多 新 问题 在 里 面 ， 生 产 环境 每 一 步 操作 都 
小 心 翼 翼 ， 如 果 没 有 充分 的 测试 ， 充 足 的 准备 ， 贸 然 操作 ， 往 往 就 是 血 的 教训 。 





3. 如 何 进行 测试 环境 业务 逻辑 测试 








一 版 情况 下 ， 业 务 的 测试 环境 就 是 为 了 进行 业务 的 逻辑 测试 ， 所 以 ， 在 虚拟 化 平台 上 ， 进 行业 务 逻 辑 测试 ， 对 测试 人 员 来 说 ， 完 全 是 透明 的 ， 不 需要 做 任何 改变 ， 业 务 测试 人 员 也 只 需要 关注 业务 相关 
的 逻辑 就 可 以 了 。 























业务 逻辑 的 测试 一 般 分 为 两 类 ， 一 类 是 人 工 测试 ， 就 是 依靠 人 工 检查 ; 一 类 是 自动 化 测试 ， 业 务 程序 上 有 任何 的 改变 ， 只 需要 将 全 套 的 测试 用 例 跑 一 遍 就 可 以 。 两 者 往往 需要 结合 使 用 。 























总 之 ， 在 虚拟 机 上 的 业务 逻辑 测试 和 在 物理 机 上 的 测试 完全 一 样 ， 不 需要 特别 关注 。 根 据 笔 者 的 经 验 ， 往 往 是 因为 使 用 了 虚拟 机 ， 通 过 快照 和 多 份 的 镜像 备份 ， 使 测试 环境 可 以 停留 到 任何 一 个 点 上 ， 
这 样 反而 大 大 提高 了 测试 效率 。 











4 如何 进行 测试 环境 业务 压力 测试 











部 署 虚 拟 化 的 时 候 ， 首 先 要 熟悉 业务 的 压力 模型 ， 通 过 性 能 评估 脚本 和 监控 工具 ， 可 以 获得 宿主 机 、 虚 拟 机 的 压力 情况 。 





T 


虚拟 机 的 性 能 ， 一 般 会 比 物理 机 低 一 些 。 虚 拟 化 就 是 为 了 建立 资源 池 ， 把 物理 机 的 资源 进行 切 分 。 虚 拟 机 能 承担 的 业务 压力 ， 一 般 要 比 物理 机 低 一 些 ， 所 以 ， 掌 握 虚 拟 机 极限 的 业务 承载 能 力 非常 














首先 ， 做 宿主 机 和 虚拟 机 系统 方面 的 综合 测试 ， 如 CPU 性 能 、 磁 盘 吞 吐 和 IMO、 网 络 吞吐 和 IMO 的 测试 ， 得 到 各 方面 的 极限 测试 数据 。 测 试 的 时 候 ， 测 试 宿 主机 ， 建 立 一 个 基准 ， 然 后 ， 在 虚拟 一 台 虚 拟 
机 的 情况 下 ， 虚 拟 各 方面 的 极限 性 能 ， 测 试 一 下 多 台 虚 拟 机 同时 的 系统 性 能 压力 。 比 如 ， 宿 主机 4k 的 随机 写 是 3000IOPS (Input/Output Operations Per Second) ， 单 台 虚 拟 机 可 能 是 1500 的 IOPS，4 台 
虚拟 机 同时 打 磁 盘 压 力 的 时 候 ， 可 能 就 是 2800 的 IOPS。 总 之 ， 需 要 尽量 模拟 生产 环境 ， 将 虚拟 机 系统 方面 的 极限 压力 测 出 来 ， 取 得 数据 ， 为 后 面 的 生产 环境 实施 做 好 数据 依据 ， 打 好 基础 。 






















































































系统 测试 完成 之 后 ， 就 是 业务 方面 的 压力 测试 ， 每 种 业务 一 般 都 有 专用 的 测试 工具 ， 如 Web 类 、 数 据 库 都 是 非常 成 熟 的 应 用 ， 有 许多 的 压 测 工具 可 以 选择 ， 游 戏 业务 一 般 都 有 机 器 人 。 也 有 许多 业务 没 
有 压力 测试 工具 ， 这 个 就 需要 研发 协商 ， 看 看 能 不 能 帮助 写 一 个 工具 ， 或 者 提供 一 些 思路 。 总 之 ， 尽 量 要 取得 业务 在 虚拟 机 上 的 最 大 压力 数据 ， 方 便 业 务虚 拟 化 的 时 候 按照 数据 进行 规划 部 署 。 



























































业务 测试 完成 后 ， 应 形成 业务 测试 报告 ， 下 面 是 一 个 xx 项 目 虚拟 化 测试 环境 测试 报告 的 例子 ， 供 读者 参考 。 








第 一 部 分 : 结论 











压力 测试 方面 ， 经 过 实际 测试 ， 虚 拟 机 最 大 负载 在 业务 方面 可 以 达到 以 下 目标 。 








这 里 需要 根据 自己 的 业务 情况 ， 附 上 相关 的 数据 ， 如 果 是 游戏 业务 ， 可 以 附 上 游戏 人 数 等 数据 ， 如 果 是 Web 类 业务 ， 可 以 附 上 PV 等 相关 数据 。 

















第 二 部 分 : 测试 环境 及 测试 方法 


1) 计算 节点 : 提供 计算 、 内 存 、 存 储 。 表 19-4 为 计算 节点 的 一 些 信息 。 
表 19-4 计算 节点 信息 
服务 器 型 号 配 E 
CPU 2 采 Intel(R) Xeon(R) X5650 @ 2.67GHz 
内 存 24GB 
hdi f SAS 146*2 (Raid 1 ) 
网 卡 Broadcom NetXtreme II BCM5709 
服务 需 数 量 1 


2) 宿主 机 系统 : RedHat RHEL 6.5， 内 核 版 本 2.6.32-431.17.1.el6.x86_64。 





3) 虚拟 机 配置 如 下 : 


- CPU: 10 个 。 


: 内 存 : 22GB。 


- 磁盘 空间 : 150GB. 


* 系统 版 本 : CentOS release 5.3 (Final) o 


- 内 核 版 本 : 2.6.18-371.9.1.el5PAE。 








4) 测试 方法 : 业务 压力 测试 ， 通 过 业务 压力 模拟 ， 收 集 虚 拟 机 、 宿 主机 性 能 压力 ， 以 及 业务 数据 。 


第 三 部 分 : 测试 结果 





如 图 19-13 所 示 的 是 宿主 机 CPU 利用 率 。 
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图 19-13 ”宿主 机 CPU 利 用 率 


宿主 机 有 32 个 核 最 高 利用 率 达 到 20% 以 上 。 


如 图 19-14 所 示 的 是 宿主 机 内 存 压 力 。 
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19-14 ”宿主 机 内 存 压 力 











如 图 19-15 所 示 的 是 宿主 机 网 卡 吞 吐 。 





如 图 19-16 所 示 的 是 宿主 机 网 卡 发 包 。 
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19-15 ”宿主 机 网 络 吞吐 
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图 19-16 ”宿主 机 网 络 发 包 


第 四 部 分 : 虚拟 化 收益 预 估 


目前 x x 机 柜 和 服务 器 使 用 情况 : x x 目前 在 线 服务 器 20 台 ， 占 用 机 柜 2 个 。 











虚拟 化 费用 方面 收益 预 估 及 虚拟 化 方案 选择 : 如 果 按照 平均 1 虚 5 的 比例 进行 虚拟 化 ， 可 以 将 机 柜 压缩 到 1 个 ， 服 务 器 压缩 到 5 台 宿 主机 ， 其 中 4 台 跑 生产 ， 一 台 备 用 。 














第 五 部 分 : 宿主 机 选 型 











考虑 总 体 服务 器 数量 比较 少 ， 使 用 单机 虚拟 化 方式 ， 宿 主机 配置 如 下 : 











“2U 机 架 式 。 

- 2 颗 Xeon 8C E5-2640 V22.0GHz。 

- 16X 8GB. 

- 8 块 300GB 10K SAS 2.5 寸 ，RAID1G 缓 存 带电 池 。 


:无 光驱 ， 双 电源 ， 远 程 管理 卡 。 


192 上线 前 的 检查 工作 





业务 正式 上 线 之 前 ， 应 该 根据 业务 的 具体 情况 ， 制 定 checklist 检 查 ， 并 对 正式 环境 进行 业务 的 逻辑 和 压力 测试 ， 尤 其 是 第 一 台 虚 拟 机 的 上 线 ， 尽 量 做 好 各 种 测试 ， 努 力 保证 上 线 成 功 。 





如 表 19-5 所 示 的 是 一 个 虚拟 机 上 线 的 checklist， 供 读者 参考 。 


Ak19-5 ” 某 项 目 虚 拟 机 上 线 checklist 参 考 







工作 流程 





交换 机 配置 检查 
网 络 准备 | 宿主 机 、 虚 拟 机 MAC, IP 对 应 关系 网 络 设 备 确认 
网 络 链 路 、 设 备 故障 预案 演练 
宿主 机 硬件 报警 检查 
宿主 机 网 口 状态 检查 
宿主 机 系统 版 本 检查 
系统 准备 | 宿主 机 libvirt 配置 检查 2015/6/30 
虚拟 机 镜像 检查 2015/6/30 
虚拟 机 网 桥 检查 2015/6/30 o WR 
业务 逻辑 验 2015/6/30 
业务 故障 模拟 2015/6/30 
虚拟 机 故障 演练 2015/6/30 














/0 Ls M 
宿主 机 故障 演练 2015/6/30 王 五 、 李 四 


19.3 ”小 规模 部 署 及 逐步 切换 到 虚拟 化 环境 


业务 正式 迁移 到 虚拟 化 环境 ， 需 要 逐步 谨慎 推荐 ， 应 先进 行 较 长 时 间 的 生产 环境 小 规模 部 署 ， 一 般 建议 小 规模 生产 环境 部 署 为 两 周到 一 个 月 比较 合适 。 
1. 小 规模 部 署 


一 般 第 一 台 正式 上 线 后 的 虚拟 机 稳定 跑 上 一 段 时 间 后 ， 就 可 以 逐步 将 业务 进行 迁移 ， 迁 移 的 时 候 要 时 刻 观察 待 迁移 业务 机 器 的 压力 ， 跟 业务 做 好 后 续 计划 的 沟通 。 如 果 有 特殊 的 活动 ， 要 对 压力 做 好 预 
估 ， 防 止 因为 压力 过 大 ， 造 成 虚拟 机 反应 慢 ， 甚 至 卡 死 ， 给 业务 造成 损失 ， 从 而 使 业务 丧失 虚拟 化 信息 。 








2. 逐 步 切换 到 虚拟 化 环境 





随 着 虚拟 化 的 稳定 逐步 进行 ， 可 以 加 快 虚拟 化 进度 ， 但 是 每 次 虚拟 化 的 迁移 都 不 能 掉以轻心 ， 应 该 还 是 遵循 虚拟 机 上 线 、 检 查 、 测 试 、 再 迁移 业务 的 步 又。 并 且 从 第 一 台 虚拟 机 上 线 的 时 候 开始 ， 就 要 
做 好 虚拟 化 的 监控 和 灾 备 工作 。 














还 有 一 种 情况 ， 就 是 在 这 个 过 程 中 出 现 问题 。 出 现 问题 也 正常 ， 如 果 问 题 是 在 预案 中 的 ， 按 照 预案 进行 处 理 ; 如 果 是 没有 碰 到 的 问题 ， 根 据 笔者 的 经 验 ， 往 往 都 是 业务 层面 配置 的 问题 居多 ， 应 该 跟 业 
务 充 分 沟通 ， 搭 建 测试 服务 器 ， 看 看 能 不 能 重 现 问题 ， 再 仔细 地 查找 问题 。 也 可 以 在 物理 机 上 进行 对 比 测试 ， 往 往 在 虚拟 机 上 碰 到 的 问题 ， 在 物理 机 也 会 出 现 。 

















194 本章 小 结 


本 章 介 绍 了 将 业务 迁移 到 虚拟 化 环境 的 流程 及 注意 事项 ， 再 次 总 结 ， 在 业务 迁移 的 过 程 中 应 坚持 稳扎稳打 ， 步 步 为 营 的 策略 ， 确 保 业 务 稳定 是 第 一 位 的 。 





业务 迁移 到 虚拟 化 环境 之 后 ， 面 临 的 一 个 问题 就 是 如 何 提高 运 维 效率 ， 下 一 章 将 为 读者 介绍 宿主 机 自动 化 运 维 管理 。 





第 20 章 ”宿主 机 自动 化 运 维 管理 


第 19 章 介绍 了 将 业务 迁移 到 虚拟 化 环境 的 整个 流程 ， 迁 移 完 成 之 后 面临 的 另 一 个 问题 就 是 宿主 机 的 维护 管理 。 随 着 业务 的 发 展 ， 宿 主机 数量 在 不 断 增加 ， 对 于 宿主 机 的 管理 ， 需 要 尽 可 能 地 做 到 自动 
化 ， 将 一 些 批量 的 、 固 定 的 、 重 复 的 事情 交 由 自动 化 工具 来 实现 ， 这 不 仅 能 提高 效率 和 准确 性 ， 还 能 让 运 维 人 员 从 枯 爆 的 工作 中 脱身 出 来 ， 把 精力 放 到 研究 及 解决 疑难 问题 上 面 来 。 


















































本 章 将 以 通过 Puppet 管 理 宿主 机 为 主线 ， 介 绍 如 何 实现 宿主 机 自动 化 运 维 管理 、 如 何 设计 自动 化 运 维 架构 、 如 何 定制 自动 化 运 维 任务 ， 以 实际 的 案例 ， 展 示 自 动 化 运 维 的 魅力 。 





20.1 Puppet 简 介 与 安装 部 署 





提 到 自动 化 运 维 ，Puppet 无 疑 是 目前 最 火 、 最 成 熟 的 自动 化 运 维 工具 之 一 ， 笔 者 在 生产 环境 中 大 量 使 用 Puppet 来 管理 宿主 机 。Puppet 有 非常 丰富 的 模块 ， 类 似 一 些 面向 对 象 的 编程 语言 ，Puppet 有 
自 带 的 类 ， 通 过 简单 调用 就 能 实现 非常 复杂 的 功能 。 在 Puppet 官 网 (https://forge.puppetlabs.com/) 已 经 提供 了 几 干 个 模块 。 























合 比较 ，Puppet 配 置 灵活 简便 、 稳 定性 好 、 成 熟 度 高 ， 目 前 它 在 生产 环境 得 到 广泛 使 用 。 














本 章 对 Puppet 的 介绍 ， 侧 重 于 宿主 机 管理 的 应 用 层面 ， 对 于 一 些 基 本 的 Puppet 语 法 、 安 装 将 不 做 详细 介绍 ， 读 者 可 以 直接 通过 Puppet 官 方 提供 的 文档 进行 学 习 ， 链 接地 址 如 下 : 








http://docs.puppetlabs.com/puppet/latest/reference/lang summary.html, 








通过 官网 文档 可 以 获取 非常 详细 的 信息 ， 机 械 工业 出 版 社 的 《Puppet 实 战 》[] 也 是 非常 不 错 的 一 本 书 ， 调 理 清楚 、 逻 辑 严 说、 实践 经 验 推荐 读者 阅读 参考 。 
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1.Puppet 简 介 















































Puppet 的 出 现 ， 将 自动 化 运 维 推 到 了 一 个 全 新 的 层面 ， 目 前 和 Puppet 类 似 的 工具 有 很 多 ， 如 常用 的 Chef、Ansiable、ControlTier 等 ， 这 些 工具 有 一 些 共性 ， 都 能 实现 标准 化 和 自动 化 的 配置 管理 ， 综 

















其 实 ， 在 Puppet 这 类 自动 化 运 维 工具 出 现 之 前 ， 作 为 运 维 人 员 ， 都 会 通过 写 一 些 脚本 或 小 程序 来 实现 一 些 自动 化 操作 ， 如 软件 安装 脚本 、 数 据 库 备份 脚本 、 软 件 配置 脚本 等 。 但 是 这 些 脚本 有 一 个 最 突 



































出 的 问题 一 一 兼容 性 非常 差 ， 如 在 CentOS 上 写 的 脚本 拿 到 Ubuntu 系统 上 去 运行 ， 一 般 就 会 报错 ， 除 非 在 脚本 中 做 了 很 多 判断 来 兼容 它 ， 但 是 这 样 做 是 很 麻烦 的 ， 基 本 上 就 是 将 这 个 脚本 重 写 一 遍 。 


就 非常 低 效 。 


源 ， 


WEBrick 库 是 一 个 HTTP 服 务 的 工具 集 ， 用 它 可 以 配置 HTTPS 服 务 、 代 理 服务 和 虚拟 主机 服务 。 使 用 内 置 的 WEBrick 支 撑 的 PuUppet Master 服 务 ， 官 方 并 不 建议 在 生产 环境 中 使 用 ， 其 中 最 主要 的 一 个 原因 是 
性 能 


它 。 










































































笔者 有 这 样 的 体会 ， 如 果 在 网 上 查找 数据 库 备份 脚 本 ,会 找到 很 多 ， 但 是 能 拿 来 能 直接 用 的 基本 上 没有 。 所 以 ， 通 常 的 结果 就 是 需要 批量 做 一 些 事情 ， 临 时 写 个 脚本 ， 其 他 地 方 再 用 了 ， 再 重 写 ,这 样 











Puppet 最 突出 或 者 说 最 成 功 的 地 方 ， 就 是 它 对 要 做 的 事情 做 了 一 层 抽象 ， 把 一 件 完整 的 事情 抽象 成 多 个 步骤 ， 在 每 个 步骤 中 提供 了 很 多 实现 这 个 基本 功能 的 操作 方法 ， 在 Puppet 中 将 这 种 方法 称 为 资 
最 后 将 这 些 过 程 连 起 来 ， 即 完成 了 一 个 复杂 的 任务 。 在 Puppet 3.6 中 ， 默 认 提供 了 52 种 不 同类 型 的 资源 ， 但 是 其 中 常用 的 不 超过 20 种 ， 所 以 ， 学 习 起 来 还 是 比较 容易 的 。 





















































2. 使 用 Apache 及 Passenger 蔡 换 自 带 的 WEBrick 





Puppet 属 于 C/S 架 构 ， 分 为 服务 器 和 客户 端 两 部 分 ，Puppet 服 务 端 通常 称 为 Puppet Master，Puppet 客 户 端 称 为 Node。Puppet 通 过 内 置 Ruby 的 WEBrick 库 来 提供 完整 Puppet Master 服 务 。 

















































































































， 一 般 小 于 10 个 客户 端的 场景 或 者 开发 环境 中 可 以 直接 使 用 WEBrick 支 撑 Puppet Master。 本 节 将 主要 介绍 如 何 使 用 Apache 及 Passenger 某 换 自 带 的 WEBrick， 以 支撑 大 量 客户 端 














3. 蔡 换 WEBrick 的 必要 性 























在 实际 的 应 用 场景 中 ， 往 往 会 有 成 百 甚至 上 王 的 服务 器 需要 用 Puppet 来 集中 管理 ， 按 照 Puppet 官 方 阅 明 中 提 到 的 ，WEBrick 仅 在 10 个 客户 端 以 下 或 者 开发 环境 中 适用 ， 实 际 的 生产 环境 中 就 必须 蔡 换 






















































































Apache 及 Passenger 其 实 就 是 利用 Apache 的 Passenger 模 块 实现 基于 Rails 框 架 的 应 用 部 署 ， 简 单 地 说 就 是 在 Apache 上 运行 Ruby 的 应 用 。 这 个 架构 目前 已 经 非常 成 熟 了 ， 在 生产 环境 中 已 经 被 普遍 应 
































了 。 笔 者 在 实际 的 生产 环境 中 ， 使 用 Apache 及 Passenger 管 理 了 超过 500 台 服务 器 ， 已 经 平稳 运行 了 两 年 以 上 。 所 以 ， 不 管 是 从 性 能 ， 还 是 从 稳定 性 考虑 ， 蔡 换 WEBrick 是 非常 有 必要 的 。 

















4 操作 步骤 及 注意 事项 

对 于 基本 的 Puppet 安 装 ， 本 书 就 不 做 详细 介绍 了 ， 笔 者 的 系统 是 CentOS 6.5， 基 本 的 安装 步骤 如 下 : 
- 添加 Puppet 官 方 的 yum 源 。 
- 使 用 yum install puppet-server 命 令 ， 安 装 Puppet Master Server. 
“更改 主 机 名 ， 并 将 主机 名 绑 定 在 hosts 文 件 中 ， 或 者 配置 统一 的 DNS。 


“ 使 用 service puppetmaster start 启 动 Puppet Master 服 务 。 





经 过 上 面 的 步骤 ， 一 个 最 简单 的 Puppet Master Server 就 部 署 完 成 了 。 接 下 来 开始 介绍 如 何 使 用 Apache 及 Passenger 蔡 换 自 带 的 WEBrick。 








(1) 安装 Apache 及 一 些 依赖 的 软件 包 














使 用 如 下 命令 安装 Apache 及 ruby。 


[root(puppetmaster ~]# yum install -y httpd httpd-devel 
[rootepuppetmaster ~]# yum install -y mod ssl ruby-devel rubygems gcc 


安装 Rack 和 Passenger。 





[root(puppetmaster ~]#gem install rack 
[root(puppetmaster ~]#gem install passenger -v 


9... 


安装 Passenger 时 ， 需 要 指定 版 本 号 ， 笔 者 在 CentOS 6.5 系 统 ，Apache 版 本 是 2.2.15 的 环境 下 ， 默 认 安 装 Passenger 版 本 为 5.0.4， 使 用 该 版 本 ，Passenget 启 动 httpd 服 务 器 时 候 提示 
"Invalid command'RackAutoDetect', perhaps misspelled or defined by a module not included in the server configuration" 
所 以 ， 建 议 安装 时 指定 版 本 为 3.0.19， 该 版 本 是 笔者 线 上 环境 中 运行 的 稳定 版 。 


(2) 安装 Apache Passenger 模 块 





Passenger 运 行 之 后 ， 会 检查 依赖 性 ， 如 果 某 些 包 没 有 安装 ， 会 提示 如 何 安装 ， 按 提示 操作 即 可 。 





[root@puppetmaster ~]# passenger-install-apache2-module 





安装 成 功 之 后 ， 会 出 现 如 下 提示 : 





The Apache 2 module was successfully installed. 

Please edit your Apache configuration file, and add these lines: 
LoadModulepassenger module 

/usr/lib/ruby/gems/1.8/gems/passenger-3.0. is ext/apachez/mod passenger so 
PassengerRoot /usr/lib/ruby/gems/1.8/gems/passenger-3.0. 

PassengerRuby /usr/bin/ruby 

«1-- SERO RR fchctpd conte E RIEP, 当 重 启 httpd 服 务 的 时 候 ， 会 载 入 PassengeT 模 块 -~-!> 
<!-- 此 处 省 略 多 行 输出 -一 !> 

<VirtualHost *:80» 


ServerName www.yourhost.com 

# !!! Be sure to point DocumentRoot to 'public'! 

DocumentRoot /somewhere/public 

«Directory /somewhere/public» 

# This relaxes Apache security settings. 

AllowOverride all 

# MultiViews must be turned off. 

Options -MultiViews 

«/Directory» 

</VirtualHost> 

<!-- 以 上 这 段 是 虚拟 机 主机 的 配置 ， 可 以 在 Apache 的 配置 文件 目录 ， 创 建 虚 拟 机 主机 配置 文件 ， 
并 将 这 部 分 内 容 放 在 这 个 文件 中 一 !> 























(3) 配置 Apache 使 其 能 运行 Puppet Master 应 F 


首先 ， 需 要 创建 一 个 目录 ， 并 从 Puppet 的 源码 中 复制 配置 文件 config.ru 到 该 目录 ， 更 改 相应 的 权限 。 





[root@puppetmaster ~] #mkdir -p /usr/share/puppet/rack/puppetmasterd 

[root@puppetmaster ~]#mkdir /usr/share/puppet/rack/puppetmasterd/public V 
/usr/share/puppet/rack/puppetmasterd/tmp 

[root@puppetmaster ~] #cp /usr/share/puppet/ext/rack/config.ru V 
/usr/share/puppet/rack/puppetmasterd/ 

[root@puppetmaster -]fchownpuppet:puppet V 
/usr/share/puppet/rack/puppetmasterd/config.ru 














其 次 ， 需 要 创建 一 个 虚拟 主机 服务 搭载 Puppet Master 应 用 ， 可 以 通过 自 带 的 模板 文件 创建 ， 并 将 安装 完 Apache Passenger 模 块 时 提示 的 内 容 放 到 虚拟 主机 配置 文件 中 。 




















[root@puppetmaster~]#cp /usr/share/puppet/ext/rack/ \ 
example-passenger-vhost.conf /etc/httpd/conf.d/passenger-vhost.conf 

[rootüpuppetmaster ~]# cd /etc/httpd/conf.d/ 

[rootQpuppetmasterconf.d]$* vim passenger-vhost.conf 
LoadModulepassenger module /usr/lib/ruby/gems/1.8/gems/ N 
passenger-3.0.19/ext/apache2/mod passenger.so 
PassengerRoot /usr/lib/ruby/gems/1.8/gems/passenger-3.0.19 
PassengerRuby /usr/bin/ruby 
<!-- 上 面 的 内 容 就 是 安装 完 Apache Passenger 之 后 提示 的 载 入 Passenger 模 块 的 命令 --! > 
# you probably want to tune these settings 
PassengerHighPerformance on 
PassengerMaxPoolSize 12 
PassengerPoolIdleTime 1500 
# PassengerMaxRequests 1000 
PassengerStatThrottleRate 120 
RackAutoDetect Off 
RailsAutoDetect Off 
Listen 0.0.0.0:8140 
<!-- 配 置 虚 拟 主机 监听 的 ip 和 端口 --!> 
<VirtualHost 0.0.0.0:8140> 
SSLEngine on 
SSLProtocol -ALL +SSLV3 +TLSV1 
SSLCipherSuite ALL:!ADH:RC4+RSA:+HIGH:+MEDIUM:-LOW:-SSLv2:-EXP 
SSLCertificateFile /var/lib/puppet/ssl/certs/puppetmaster.test.com.pem 
SSLCertificateKeyFile ^ /var/lib/puppet/ssl/private keys/puppetmaster.test.com.pem 
SSLCertificateChainFile /var/lib/puppet/ssl/ca/ca crt.pem 
SSLCACertificateFile /var/lib/puppet/ssl/ca/ca crt.pem 
# If Apache complains about invalid signatures on the CRL, you can try disabling 
# CRL checking by commenting the next line, but this is not recommended. 
SSLCARevocationFile /var/lib/puppet/ssl/ca/ca crl.pem 
<!-- 以 上 配置 的 相关 证 书 路 径 需要 根据 实际 情况 进行 修改 ， 本 实例 都 是 默认 安装 的 路 径 --!> 
SSLVerifyClient optional 
SSLVerifyDepth 1 
# The 'ExportCertData' option is needed for agent certificate expiration warnings 
SSLOptions *StdEnvVars *ExportCertData 
# This header needs to be set if using a loadbalancer or proxy 
RequestHeader unset X-Forwarded-For 
RequestHeader set X-SSL-Subject $(SSL CLIENT S DN}e 
RequestHeader set X-Client-DN $(SSL CLIENT S DN}e 
RequestHeader set X-Client-Verify $(SSL CLIENT VERIFY)e 
DocumentRoot /usr/share/puppet/rack/puppetmasterd/public/ 

RackBaseURI / 

«Directory /usr/share/puppet/rack/puppetmasterd/» 

Options None 
AllowOverride None 
Order allow,deny 
allow from all 
«/Directory» 
</VirtualHost> 
<!-- 以 上 虚拟 主机 的 配置 ， 就 是 安装 完 apache passenger 模 块 之 后 ， 提 示 的 创建 虚拟 主机 实例 ， 

需要 改变 的 是 根 路 径 一 -!> 





Apache 配 置 完成 后 ， 启 动 Apache 服 务 。 





[root@puppetmaster ~]# service httpd start 


Starting httpd: [ OK ] 
[root@puppetmaster -]f netstat -tunpl|grep http 
tcp 0 0 0.0.0.0:8140 0.0.0.0:* LISTEN 16410/httpd 

















至 此 ， 使 用 Apache 和 Passenger 蔡 换 自 带 的 WEBrick 已 经 完成 ， 在 客户 端 测试 连接 ， 类 似 如 下 输出 ， 说 明 配置 已 经 正常 了 。 




















[root(puppetclient ~]# puppet agent --test 

Info: Retrieving pluginfacts 

Info: Retrieving plugin 

Info: Caching catalog for puppetclient.com 

Info: Applying configuration version '1426590587' 
Notice: Finished catalog run in 0.04 seconds 





[1] 本 书 由 机 械 工 业 出 版 社 华章 公司 出 版 ， 书 号 978-7-111-44518-0。 


202 ”利用 Puppet 管 理 宿 主机 的 运 维 架构 设计 























Puppet 任 务 架构 这 部 分 内 容 ， 是 笔者 一 些 实践 经 验 的 总 结 ， 通 过 一 个 合理 的 任务 架构 设计 ， 能 使 得 在 后 续 的 配置 和 管理 过 程 中 事半功倍 ， 一 个 好 的 任务 架构 ， 需 要 具备 以 下 特性 : 





* 灵活 性 。 
Er 
ET 


(1) 灵活 性 

















对 于 一 些 基础 的 服务 检查 及 通用 配置 管理 ， 需 要 能 应 用 于 所 有 的 Puppet 客 户 端 ， 而 不 需要 重复 的 定义 。 由 此 可 以 将 一 些 基础 的 服务 ， 定 义 为 模块 ， 用 于 检查 一 些 服务 的 状态 ， 如 必须 开启 iptables 服 




















务 ， 关 闭 不 必要 服务 等 。 


(2) 可 控 性 





任务 可 控 性 ， 这 点 非常 重要 ， 


范围 延伸 。 





(3) 安全 性 























必须 非常 清楚 新 建 或 者 变更 一 个 任务 的 时 候 ， 有 多 少 Puppet 客 户 端 受 影响 ， 针 对 全 局 任务 的 调整 必须 谨慎 对 待 ， 通 过 分 层 的 思想 ， 将 任务 的 影响 面 分 层 化 ， 由 小 范围 向 大 


任务 安全 性 ， 主 要 考虑 以 下 两 点 : 





1) Puppet 客 户 端 配置 文件 是 否 可 回 退 。 通 常 的 方法 可 以 通过 配置 svn 或 者 git， 将 Puppet 客 户 端 任务 配置 文件 放 在 svn 或 者 git 上 ， 借 助 svn 或 者 git 的 版 本 控制 功能 ， 当 出 现 某 个 配置 文件 变更 出 错 的 时 


候 ， 能 及 时 回 退 。 





2) 不 可 逆 任 务 的 处 理 。 针 对 一 些 不 可 逆 任 务 ， 往 往 把 Puppet 客 户 端 配置 文件 回 退 到 某 个 版 本 ， 无 法 将 这 些 变更 复原 ， 安 装 软件 包 就 是 一 个 明显 的 例子 。 对 此 ， 在 执行 某 些 重要 更 改 的 时 候 ， 需 要 实现 
考虑 好 回 退 方 案 ， 事 先 写 好 回 退 的 脚本 或 者 程序 ， 以 防止 不 可 逆 的 情况 发 生 。 





1.Puppet 任 务 架构 设计 思路 及 注意 点 


Puppet Master 任 务 的 载 入 是 从 /etc/puppet/manifests/site.pp 文 件 开始 的 ， 在 这 个 文件 中 ， 通 常 不 定义 . 


体 实例 如 下 : 























体 的 某 个 Puppet 客 户 端的 任务 ， 而 是 定义 一 些 环境 变量 ， 及 Puppet 客 户 端 任 务 的 调 



































[root@puppetmaster ~]# cat /etc/puppet/manifests/site.pp 


import "node/*.pp" 


import "node/shanghai CT/*.pp" 
import "node/beijing UN/*.pp" 


import "db/*.pp" 
Exec ( 
Path=>\ 


['/bin', '/usr/local/sbin','/usr/local/bin', '/sbin','/usr/sbin', '/usr/bin'],] 

















上 面 的 site.pp 中 定义 ， 引 





在 定义 Puppet 客 户 端 任务 时 ， 首 先 可 以 按照 地 域 做 一 个 归 类 ， 在 Node 目 录 下 创建 多 个 子 目 录 ， 如 shanghai_CT 表 示 上 海 电信 机 房 ，beijing_UN 表 示 北 京 联通 机 房 。 





Puppet 客 户 端 配置 文件 的 路 径 ， 并 定义 了 exec 类 型 的 任务 执行 时 的 环境 变量 ， 如 此 定义 可 以 避免 创建 exec 任 务 时 重复 定义 命令 路 径 。 





















































体 如 何 命名 读者 可 以 自行 定义 ， 














如 此 定义 的 话 ， 可 以 直接 看 到 这 个 机 房 Puppet 管 理 了 多 少 个 客户 端 ， 并 且 一 个 机 房 内 相同 角色 的 Puppet 客 户 端 ， 往 往 需要 执行 相同 的 配置 变更 和 管理 。 当 客户 端 数量 很 多 的 时 候 ， 不 至 于 混乱 。 





2. 生 产 环境 多 机 房 宿主 机 运 维 架构 设计 














在 实际 的 应 用 中 ， 往 往 会 面临 需要 管理 的 服务 器 分 别 在 全 国 多 个 机 房 ， 而 不 同 的 机 房 又 会 带 有 一 些 地 域 的 特征 ， 比 如 ， 上 海 的 电信 机 房 ， 北 京 的 联通 机 房 。 在 推送 DNS 服 务 器 地 址 的 时 候 ， 最 佳 的 情况 


























就 是 做 一 些 区 分 ， 推 送 离 各 自 最 近 的 DNS 服务 器 地 址 。 





由 此 ， 可 以 定义 一 个 配置 文件 ， 如 下 路 径 /etc/puppet/manifests/inherits-tasks.pp。 





[root@puppetmaster manifests]# cat /etc/puppet/manifests/inherits-tasks.pp 


node "shanghai CT" ( 


file('/etc/resolve.conf': 


ensure => file, 
owner => root, 
group => root, 


Source => 'puppet:///files/resolv shanghai.conf' 


H 


} 
<!-- 定 义 上 海 电 信 机 房 的 通用 主机 shanghai CT, Puppet client 可 以 通 inherits 引 用 --!> 


node "beijing UN" { 


file('/etc/resolve.conf': 


ensure => file, 
owner => root, 
group => ro 


ot, 
Source => 'puppet:///files/resolv beijing.conf' 


2) 
<!-- 定 义 北京 联通 机 房 的 通用 主机 beijing_UN，Puppet client 可 以 通 inherits 引 用 --!> 


l 























挂 载 点 ， 命 名 为 files， 具 体 的 内 容 如 下 : 








上 面 的 配置 文件 中 ， 定 义 的 推送 的 resolv.conf 文 件 路 径 是 puppet: ///files/resolv_shanghai.conf， 这 个 文件 在 Puppet Master 服 务 器 上 ， 需 要 先 配置 /etc/puppet/fileserver.conf， 在 其 中 定义 一 个 





[rootüpuppetmaster puppet]# cat/etc/puppet/fileserver.conf 


[files] 


path /etc/puppet/files 


allow * 


定义 完 挂 载 点 后 ,创建 /etc/puppet/files 目 录 ， 将 需要 推送 的 文件 resolv_beijing.conf、resolv_shanghai.conf， 放 在 这 个 目录 下 面 。 





[root@puppetmaster puppet]# cat /etc/puppet/files/resolv shanghai.conf 
nameserver 202.96.199.133 


nameserver 114.114. 


114.114 


<!-- 推 送 的 DNS 配置 文件 中 ， 定 义 了 两 个 DNS， 一 个 是 上 海地 区 的 ， 还 有 一 个 是 通用 的 dns--!> 
[rootépuppetmaster PupPet]# cat /etc/puppet/files/resolv beijing.conf 
nameserver 202.96.0.133 


nameserver 114.114. 


114.114 


<!-- 推 送 的 DNS 配置 文件 中 ， 定 义 了 两 个 DNS， 一 个 是 北京 联通 的 ， 还 有 一 个 是 通用 的 dns--!> 























最 后 ， 需 要 在 Puppet Node 的 任务 配置 文件 中 ， 引 入 刚才 定义 的 机 房 通用 主机 任务 。 





[root@puppetmaster ~]# cat V 
/etc/puppet/manifests/nodes/shanghai CT/puppetclient.pp 
node "puppetclient" inherits shanghai CT{ 
<!--PupPet 客 户 端 中 通过 inherits shanghai CT 引入 机 房 通 用 的 Node 任 务 --!> 
} 


} 





配置 完成 后 ， 所 有 配置 文件 的 路 径 和 名 称 如 下 : 





[rootüpuppetmaster puppet]# pwd 
[root@puppetmaster puppet]# tree /etc/puppet 





/etc/puppet 


10 directories, 9 files 


auth.conf 











environments // 在 Puppet 中 可 以 定义 多 种 配置 环境 ,如 development，test 
// 环境 等 ， 默 认 情 况 下 ， 都 放 在 此 目录 中 | example env | manifests —— modules — —-README. environment 


files 











3. 任 务 的 分 层 推送 设计 思路 























任务 分 层 ， 首 先 需要 了 解 ， 为 什么 任务 需要 做 分 层 设计 ， 分 层 的 目的 是 为 了 将 一 个 任务 的 影响 范围 限制 在 一 定 范围 内 ， 从 小 范围 向 大 范围 扩散 ， 避 免 一 次 性 全 局 推送 ， 避 免 能 造成 的 全 部 服务 器 受 影 
响 。 本 节 通 过 一 个 实例 ， 进 一 步 介绍 任务 分 层 推送 的 设计 思路 。 
































(1) 任务 应 用 场景 需求 



































假设 有 这 样 一 个 应 用 场景 ， 在 全 国有 5 个 IDC 机 房 ， 每 个 机 房 里 面 有 多 个 角色 的 服务 器 ， 如 有 Web 类 的 、DB 类 的 、Memcached 类 的 ， 还 有 宿主 机 。 现 在 有 一 个 需求 ， 就 是 对 所 有 的 Web 类 服务 器 做 网 
站 版 本 更 新 ， 所 有 Memcached 类 服务 器 需要 更 新 一 个 配置 文件 ， 更 新 完 之 后 载 入 新 配置 。 其 他 角色 服务 器 不 更 新 。 


























(2) 任务 设计 及 实现 思路 


针对 以 上 场景 的 需求 ， 应 该 如 何 设计 和 实现 效果 最 好 呢 ? 











从 需求 来 看 ， 需 要 做 两 个 任务 ， 分 别针 对 Web 类 服务 器 和 Memcached 类 服务 器 ， 先 看 Web 类 服务 器 ， 更 新 网 站 版 本 ， 也 就 是 最 常用 的 站 点 更 新 。 主 要 是 内 容 蔡 换 ， 在 Puppet 里 面 抽象 为 文件 推送 。 
还 有 Memcached 类 服务 器 ， 需 要 更 新 配置 ， 然 后 重新 载 入 配置 ， 在 Puppet 里 面 抽象 为 两 步 ， 配 置 文件 推送 并 触发 服务 重新 载 入 。 抽 象 之 后 ， 发 现 这 两 个 任务 本 身 很 简单 ， 但 是 ， 在 具体 的 实施 过 程 中 ， 还 
有 一 些 点 是 需要 注意 的 ， 一 般 更 新 操作 ， 需 要 避免 一 次 性 全 部 推送 ， 因 为 有 时 候 开发 的 新 版 本 ， 未 必 都 是 完美 的 ， 有 些 问题 在 测试 过 程 中 可 能 没有 发 现 ， 真 正 上 线 后 才 发 现 ， 如 果 一 次 性 推送 ， 可 能 会 造 
服务 受 影响 。 所 以 ， 需 要 用 任务 分 层 的 思路 来 逐步 的 推送 更 新 。 








































































































具体 的 设计 思路 是 这 样 的 ， 针 对 Web 类 服务 器 ， 要 能 够 先 推送 一 个 机 房 的 ， 在 完成 一 个 机 房 的 任务 推送 后 ， 监 控 业 务 运 行 是 否 一 切 正常 ， 如 果 正常 ， 则 推送 一 半 的 机 房 ， 本 例 中 可 以 是 3 个 ， 待 推送 完 
成 后 ， 继 续 监控 业务 是 否 一 切 正常 ， 依 然 正 常 的 情况 下 完成 全 部 机 房 推 送 。 其 中 任何 一 个 环节 出 现 问题 ， 都 需要 停止 继续 推送 ， 找 到 问题 ， 必 要 情况 下 ， 进 行 回 滚 操 作 。Memcached 类 服务 器 推送 思路 也 
一 样 。 

































































上 面 的 这 个 场景 ， 在 实际 应 用 中 ， 是 比较 常见 的 ， 下 面 将 详细 介绍 ， 用 Puppet 实 现 的 具体 思路 和 配置 步骤 。 























1) 定义 模块 。 对 于 这 类 常用 的 任务 ， 可 以 定义 一 个 模块 ， 名 字 只 需要 符合 Puppet 的 命名 规则 即 可 (模块 命名 必须 以 小 写字 母 开始 ) ， 本 处 定义 一 个 名 为 Update-task 的 模块 ， 目 录 结 构 如 下 : 








[rootépuppetmaster ~]# tree /etc/puppet/modules/update task/ 

/etc/puppet/modules/update task/ 

<! -- 如 下 展示 了 一 个 pupPet 模 块 最 基本 的 结构 ~-! > | 一 files // files 目 录 里 面 存放 需要 推送 的 文件 | 一 manifests // manifests 目 录 存 放 模块 具体 的 任务 内 容 ，* .PP 文件 ipi 
// 通过 给 变量 赋 不 同 的 值 ， 可 以 得 到 不 同 的 配置 文件 

3 directories, 1 file 




















把 常用 任务 定义 为 模块 主要 有 以 下 两 点 好 处 : 











“ 结构 非常 清晰 ， 通 过 直观 的 模块 名 称 可 以 清楚 它 的 作用 。 
“ 通过 模块 方式 定义 的 任务 ， 可 以 非常 灵活 地 被 Puppet 客 户 端 调用 。 


2) 模块 内 容 介 绍 。 在 init.pp 中 定义 了 一 个 update task 类 ， 它 可 以 接收 两 个 变量 ， 分 别 是 机 房 信 息 (location) 和 服务 器 角色 (rules) ， 内 容 如 下 : 





[rootépuppetmaster ~]# cat /etc/puppet/modules/update task/manifests/init.pp 
class update task ($location, $rules)( 
«!--X Xupdate _ task 类 ， 其 中 可 以 接受 两 个 变量 ，location 和 rules --!» 
case Srules ( 
<! -- 使 用 case 来 区 分 服务 器 角色 变量 rules， 使 不 同 角色 的 服务 器 执行 不 同 分 支 中 的 任务 --! > 
web: { 
case $location{ 
<!-- 在 此 通过 case 来 区 分 服务 器 所 属 机 房 信息 Location， 不 同 机 房 可 定义 不 同 任务 --!> 
shanghai CT:[include update task::web 20150321) 
beijing UN:(] 
<!-- 罗 列 了 两 个 机 房 ， 在 各 自 机 房 下 定义 的 任务 ， 旨 在 该 机 房 有 效 ， 此 处 实现 任务 分 层 --!> 
} 


# include update task: :web 20150321 
<! 一 此 处 任务 Update task::web 20150321 被 注释 掉 了 ， 一 点 去 掉 注 释 ， 则 有 所 机 房 的 Web 类 型 服务 
器 都 会 执行 Update task::web 20150321 任 务 ， 这 步 是 任务 分 层 设 计 中 ， 全 局 任务 定义 的 位 置 -一 !> 
} 


memcached: { 
<! 一 memcached 分 支 和 web 类 定义 方式 一 致 ， 所 以 省 略 了 -一 !> 
} 


default:í]) 
} 
} 
class update task: :web 20150321{ 
<--! 将 web 类 服务 器 的 更 新 任务 ， 详 细 操 作 内 容 定 义 在 这 个 类 中 ， 具 体 的 读者 朋友 可 以 自行 定义 !--> 
} 
class update task::memcached 20150321{ 
<--! 将 memcached 类 服务 器 的 更 新 任务 ， 定 义 在 这 个 类 中 ， 具 体操 作 读 者 朋友 可 以 自行 定义 1--> 
l 


} 











更 新 任务 的 模块 已 经 定义 完成 了 ， 下 面 需要 说 明 在 Puppet 节 点 中 如 何 使 用 。 在 父 类 节点 中 定义 变量 jdc， 用 于 标注 机 房 信息 。 




















[root@puppetmaster ~]# cat /etc/puppet/manifests/inherits-tasks.pp 
node "shanghai CT" { 

Sidc-"shanghai CT" 
} 























在 Puppet 节 点 中 ， 定 义 变量 服务 器 角色 rules， 并 调用 模块 update_task 的 类 ， 为 其 赋值 location 和 rules， 其 中 的 location 值 便 是 父 类 节点 中 定义 的 变量 idc 的 值 。 











[root@puppetmaster ~]# cat /etc/puppet/manifests/nodes/shanghai CT/puppetclient.pp 
node "puppetclient" inherits shanghai CT( 
class ('update task':location => "$idc",rules => 'web'] 


} 





(3) 小 结 





至 此 ， 完 成 了 任务 的 分 层 推送 设计 ， 凡 是 定义 在 update_task 模 块 中 web->location 下 机 房 分 支 中 的 任务 ， 只 在 这 个 机 房 的 Web 角 色 服 务 器 生效 ， 定 义 在 update _ task 模块 中 Web 分 支 下 的 任务 ， 将 对 
所 有 Web 角 色 服 务 器 生效 ; 定义 在 update _task 模 块 中 default 分 支 下 的 任务 ， 将 对 全 部 引用 了 update task 的 Puppet 节 点 生效 。 








4 .任务 回 退 设计 








任务 回 退 作为 错误 最 后 的 补救 ， 通 常情 况 下 ， 如 果 按照 上 一 节 中 任务 分 层 推送 的 思路 来 操作 的 话 ， 不 会 有 大 量 Puppet 节 点 出 现 这 样 的 问题 ， 但 即使 这 样 ， 任 务 回 退 也 是 非常 必要 的 。 





对 于 任务 回 退 ， 可 以 分 为 两 类 ， 第 一 类 是 可 逆 的 任务 回 退 ， 比 如 ， 常 见 服务 的 配置 文件 推送 ， 这 种 
第 二 类 是 一 些 不 可 逆 的 ， 比 如 ， 一 个 某 中 类 型 服务 器 的 配置 脚本 ， 其 中 做 了 很 多 的 操作 ， 包 括 修改 配置 、 



































情况 下 如 果 配 置 出 错 ， 只 需 
改 环境 变量 、 编 译 安装 程序 等 ， 那 么 对 于 这 类 任务 ， 就 需 














考虑 如 何 还 原 ， 通 常 比较 简 自 


203 F 


对 于 KVM 宿 主机 ， 本 质 上 也 是 一 类 应 用 服务 器 ， 所 以 ， 也 需要 做 一 些 前 期 配 


J 用 Puppet 配 置 宿 主机 初始 化 操作 


和 的 方式 就 是 编写 脚本 。 在 实际 的 环境 中 ， 任 务 回 退 一 定 要 考虑 到 ， 否 则 一 旦 出 现 问题 ， 后 果 是 非常 严 


将 原来 的 配置 文件 重新 推送 ， 大 多 数 情况 下 就 完成 了 任务 的 回 退 操作 。 








EHI. 


， 主 要 是 对 一 些 基础 服务 做 配置 。 本 节 介绍 如 何 用 Puppet 完 成 部 分 宿主 机 初始 化 配 




















速 部 署 及 加 入 资源 池 。 笔 者 亲历 过 使 





1. 宿 主机 初始 化 操作 内 容 








Puppet 在 两 天 时 间 内 ， 完 成 6 个 虚拟 化 集群 的 配置 和 500 台 云 3 











宿主 机 初始 化 操作 主要 分 为 以 下 





-个 - 





“ 系统 层面 的 调 优 配 置 。 





“ 系统 服务 的 检查 和 配置 。 


大 类 : 


- KVM 相 关 的 服务 和 工具 组 件 的 安装 和 配置 。 


“ KVM 管 理 平台 相关 的 配置 。 

















2. 哪 些 初始 化 操作 可 以 使 














面 列举 的 四 





对 于 上 








台 很 多 ， 如 OpenStack、OpenNebula、CloudStack 等 ， 还 有 一 些 有 研发 实力 的 公司 会 选择 


者 至 少 也 能 实现 部 分 自动 化 操作 。 


3. 如 何 避 免 任 务 重复 执行 


Puppet 对 于 自 带 的 一 些 默认 类 型 资源 ，Puppet 内 部 通过 检查 ， 已 经 





务 ， 如 何 来 避免 重复 执行 。 


通常 Puppet 在 执行 自 定义 脚本 的 时 候 ， 每 运行 一 


Puppet 





大 类 宿主 机 的 初始 化 操作 ， 其 中 ， 前 三 类 可 以 很 方便 地 做 到 Puppet 自 动 





E 机 交付 的 任务 。 所 以 深切 地 体会 到 ， 自 动 化 在 宿 


化 任务 ， 第 四 类 任务 是 否 能 用 Puppet 实 现 自动 化 ， 还 需要 看 

















己 开 发 KVM 管 理 平台 ， 所 以 ， 对 于 第 四 类 任务 ， 需 要 根据 实 




















备 了 跳 过 有 











Pan 











记 输 出 文件 是 否 存在 ， 存 在 则 


自动 跳 过 。 下 








exec ('unzip-file': 
command 
creates 
path 


=> 'tar zxf /root/sshd 20050524.tar.gz', 
=> "/root/ossh", 7 
=> ['/bin','/usr/local/sbin','/usr/local/bin', 
'/sbin', '/usr/sbin', '/usr/bin'], 


面 的 实例 ， 判 断 如 果 存 在 /root/ossh 目 录 则 











自动 跳 过 ， 不 


重复 解压 。 











在 测试 环境 中 ， 对 每 一 处 的 变更 都 需要 








， 最 终 要 达到 的 效果 是 宿主 机 的 快 
机 运 维 中 的 重要 性 。 



































因 


























体 接 入 的 KVM 的 平台 是 什么 ， 因 为 目前 这 类 平 
际 情况 来 结合 Puppet， 一 般 情况 下 能 实现 全 部 或 








E 复 执行 的 操作 ， 如 文件 推送 、 软 件 包 安 装 、 计 划 任 务 等 。 此 处 主要 讲 的 是 针对 一 些 自 定义 的 脚本 ,或 者 exec 类 型 的 任 


次 Puppet agent--test 就 会 执行 一 次 ， 但 是 可 以 在 编写 脚本 的 时 候 ， 定 义 一 个 标记 输出 ， 如 脚本 执行 成 功 生成 一 个 文件 ， 然 后 由 Puppet 来 判断 这 个 标 





还 有 一 种 是 通过 unless 来 判断 是 否 执行 ， 当 脚本 执行 完成 之 后 会 监听 39422， 如 果 检查 到 已 经 监听 了 这 个 端 














再 重复 执行 安装 。 




















exec ('install-client': 
cwd 
command 
path 


unless 


=> '/root/ossh', 
=> 'bash install.sh', 
=> ['/bin','/usr/local/sbin','/usr/local/bin', 
'/sbin','/usr/sbin','/usr/bin'], 
-» 'netstat -tunl|grep 39422 »/dev/null', 


20.4 利用 Puppet 管 理 宿主 机 配置 与 更 新 











包含 以 下 三 个 部 分 : 














对 于 宿主 机 的 配置 ， 








“ 宿主 机 前 期 初始 化 过 程 中 一 个 配置 文件 。 


: 后 期 虚拟 化 平台 的 应 用 程序 及 相关 配置 。 


“ 一 些 用 于 日 常 维护 的 脚本 ， 定 时 任务 及 配置 文件 。 





通常 对 于 第 一 部 分 的 配 
本 更 新 ， 这 种 情况 当然 是 内 部 


， 初 始 化 结束 之 
自己 开发 的 虚拟 化 平台 更 新 会 更 频繁 一 些 。 第 三 部 分 也 是 会 经 常 调整 的 ， 如 一 些 监控 或 者 备份 策略 ， 这 部 分 内 容 运 维 人 员 的 








后 一 般 是 很 少 有 更 新 的 ， 除 非 出 现 系 统 级 别 的 漏洞 或 者 bug 才 会 去 更 新 这 部 分 配置 。 第 二 部 分 是 经 常 需要 更 新 的 ， 因 



































部 分 的 配置 管理 和 更 新 处 理 策略 。 
1. 利 用 Puppet 集 中 管理 的 宿主 机 配置 
从 目的 出 发 ， 使 用 Puppet 集 中 管理 宿主 机 的 配置 ， 是 为 了 宿主 机 出 现 故 障 时， 能 快速 恢 




















机 配置 ， 






































“ 宿主 机 初始 化 过 程 中 的 配置 ， 通 过 这 部 分 配置 的 集中 管理 ， 能 快速 地 实现 宿主 机 的 初始 化 。 


“ 宿主 机 所 部 署 的 其 他 程序 、 脚 本 或 者 平台 ， 通 过 这 部 分 配置 的 集中 管理 ， 

















所 以 , 使 





2. 集 中 管理 iptables 脚 本 ， 使 更 新 
对 于 一 个 Puppet 任 务 ， 首 先 需要 分 解 它 ， 完 成 这 个 任务 需要 哪些 步 又， 每 个 步骤 都 做 了 哪些 寻 


Puppet 兼 顾 这 两 部 分 


能 快速 地 恢复 业务 。 

















的 配置 管理 ， 在 故障 恢复 及 宿主 机 横向 扩 








动 生效 


























自动 生效 。 分 解 puppet 任 务 ， 包 含 以 下 两 步 操作 : 


。 Puppet 集 中 管理 的 宿 

















为 一 般 来 说 ， 虚 拟 化 平台 都 会 定时 的 有 版 
就 介绍 第 二 部 分 和 第 三 




















ZEB, FHE: 





自 定义 





要 分 为 以 下 两 部 分 : 














情 ， 对 于 防护 墙 自动 配置 更 新 任务 ,站 


需要 做 的 是 管理 iptables 脚 本 ， 并 且 在 iptables 脚 本 更 新 的 时 候 ， 能 


` Puppet 文 件 推送 。 








- 使 新 的 iptables 生 效 。 
具体 如 下 : 
file ( 'iptables': 
path => '/opt/script firewall.sh', 
ensure => file, 
owner -» root, 
group -» root, 
source => "puppet://Sfileserver/modules/postinstall/script firewall.sh", 
mode => 755, 


) // iptables 脚 本 推送 

exec {'flush iptables': 

command => '/bin/bash /opt/script firewall.sh -a', 

subscribe-» File['iptables'], n 

refreshonly => true, // 通过 定义 refreshonly 参 数 ， 使 ijptables 脚 本 更 新 的 时 候 
// 自动 执行 Script_firewall.sh -a 刷新 ijptables 策 略 

) // 刷新 iptables 策 略 




















当然 ，Puppet 对 于 iptables 的 管理 ， 也 有 一 些 现成 的 模块 可 以 使 用 ， 使 用 puppet module search iptables 命 令 可 以 查找 可 用 的 模块 ， 各 列 依次 表示 模块 名 称 、 描 述 信息 、 作 者 、 关 键 字 。 需 要 使 用 模 
块 的 话 ， 直 接 使 用 puppet module install module-name 即 可 安装 。 上 默认 安装 在 /etc/puppet/module 目 录 下 。 





























[root@puppetmaster manifests]# puppet module search iptables 

Notice: Searching https://forgeapi.puppetlabs.com http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
NAME DESCRIPTION AUTHOR KEYWORDS u 

arusso-iptablesiptables management  G8arussoiptables security firewall 

erwbgy-iptables manage iptables allow and deny rules  G&erwbgyiptablesrhel firewall centos 

<!-- 以 下 省 略 多 行 模块 列表 内 容 --!> 




















通常 情况 下 ，Puppet 提 供 的 模块 都 比较 完善 ， 考 虑 了 各 系统 之 间 的 兼容 ， 但 是 内 容 较为 复杂 ， 使 用 前 需要 先 读 
的 方法 ， 来 完善 自己 编写 的 模块 。 


体 的 任务 内 容 及 实现 过 程 。 读 者 可 以 通过 阅读 Puppet 提 供 的 模块 内 容 ， 借 鉴 一 些 好 





3. 集 群 平台 程序 推送 、 安 装 及 更 新 




















这 个 实例 是 笔者 生存 环境 中 的 一 个 例子 ， 笔 者 的 生产 环境 使 用 了 一 个 被 称 为 集群 平台 的 系统 来 管理 所 有 的 虚拟 机 ， 平 台 全 部 由 Python 编写 ， 任 务 的 操作 步骤 如 下 : 
:推送 新 版 的 集群 平台 代码 。 


“ 关闭 正在 运行 的 集群 平台 相关 服务 。 








- 编译 Python 程序 。 
:启动 集群 平台 相关 服务 。 
具体 任务 如 下 : 
file {'/etc/init.d/compute-node': // 推送 compute-node 启 动 程序 
ensure => present, 
source => "puppet:///modules/vcloudv7/compute-node", 
mode => 0755, 
owner => root, 
group => root, 

} // 推送 compute-node 的 jnit 服 务 脚 本 
file ('/root/zone-manager-package!': // 推送 最 新 的 平台 管理 程序 
ensure => directory, 

source => "puppet: ///modules/vcloudv?/zone-manager-package", 
mode => 0644, 
owner => root, 
group => root, 
purge => true, 
recurse => true, 
force => true, 
backup => ".bak $uptime seconds", 
} 
service ('stop-compute-node': // 关闭 正常 运行 的 程序 
ensure => "stopped", 
enable => true, 
hasrestart => true, 
hasstatus => true, 
subscribe => File['/root/zone-manager-package'], 
refreshonly => true, 
execí('python-build': 
path => ["/usr/bin","/usr/sbin","/bin"], 
command => "python setup.py build", 
cwd => "/root/zone-manager-package", 
user -» root, 
subscribe -»Service ['stop-compute-node'], 
refreshonly => true, 
} 
exec{'python-install': // 编译 安装 最 新 的 python 程 序 
path => ["/usr/bin","/usr/sbin","/bin"], 
command => "python setup.py install", 
cwd => "/root/zone-manager-package", 
user => root, 
subscribe => Exec['python-build'], 
refreshonly => true, 
} 
service {'start-compute-node' : // 编译 完成 ， 开 启程 序 
ensure => "running", 
enable => true, 
hasrestart => true, 
hasstatus => true, 
subscribe => Exec['python-install'], 

















上 面 的 这 个 例子 是 一 个 完整 的 程序 更 新 任务 ， 读 者 可 以 根据 自己 的 实际 情况 做 一 些 变通 ， 便 可 以 完成 ， 只 要 用 最 新 的 程序 覆盖 者 程序 ， 程 序 便 可 以 自动 更 新 。 注 意 ， 在 更 新 的 过 程 中 ， 需 要 充分 测试 程 
序 本 身 无 故障 ， 再 做 覆盖 。 








20.5 利用 Puppet 推 送 宿主 机 的 非 一致 性 配置 


文件 推送 在 Puppet 中 运用 的 非常 多 ， 但 是 在 某 些 场景 下 ， 需 要 对 不 同 的 服务 器 推送 适合 自己 的 文件 。 比 如 ， 每 套 虚 拟 化 集群 配置 的 多 路 径 脚本 ， 在 不 同 的 集群 上 是 不 一 样 的 ， 那 么 就 需要 在 推送 备份 肢 
本 的 时 候 ， 安 装 集群 单独 定义 ， 本 节 介绍 在 类 似 这 样 的 应 用 场景 下 ， 如 何 实现 非 一 致 性 的 文件 推送 。 


























1. 自 定义 Puppet 模 板 






































Puppet 自 定义 模板 的 使 用 ， 是 为 了 在 某 些 情况 下 ， 根 据 服务 器 的 配置 或 者 角色 推送 有 差异 化 的 配置 ， 通 常 自 定义 Puppet 模 板 在 Puppet 模 块 里 面 使 用 。 在 本 章 的 20.1 节 中 介绍 了 模块 基本 的 目录 结构 。 
一 个 模块 下 ， 一 般 包含 三 个 目录 ， 即 fles、manifests 和 templates， 其 中 templates 目 录用 于 存放 模板 文件 ， 文 件 一 般 以 .erb 结 尾 ， 下 面 一 个 最 简单 的 rsync 的 配置 文件 模板 。 
















































































log file = /var/log/rsyncd.log 
[backup] 

comment = temporary file area 
usechroot - true 

path = /backup 

read only = no 

hosts allow = «$-8rsync server allow network» 
auth users = oneadmin ` m 2 
strict modes - true 

uid = root 

gid - root 

secrets file = /etc/rsyncd.secrets 














在 这 个 模板 里 面 定义 了 一 个 变量 rsync_server_allow_network， 用 于 指定 rsync 服 务 允许 哪些 客户 端 连接 。 在 使 用 的 时 候 ， 只 需要 定义 grsync_server_allow_network={ip address}， 就 能 将 这 个 变量 赋 
值 给 rsync 的 配置 文件 ， 得 到 差异 化 推送 的 效果 。 像 类 似 的 例子 很 多 ， 可 以 是 服务 的 配置 文件 ， 也 可 以 是 脚本 的 变量 。 

















2. 自 定义 Puppet Facter 获 取 特 定 信息 














Puppet 中 使 用 Facter 可 以 得 到 很 多 系统 相关 的 信息 ， 在 Puppet Node 上 直接 运行 Facter 命 令 可 以 得 到 很 多 信息 ， 不 同 版 本 的 Facter 获 得 的 信息 量 稍 有 不 同 ， 一 般 都 在 85 个 左右 ， 内 容 基 本 如 下 : 








[root@puppetclient ~]# facter 

architecture => x86 64 

hostname =>puppetclient 

kernelrelease => 2.6.32-431.e16.x86 64 
lsbdistdescription -»CentOS release 6.5 (Final) 
manufacturer -» Red Hat 

memoryfree => 1.66 GB 

memorysize => 1.83 GB 

network eth0 => 172.16.100.0 

operatingsystem —»CentOS 
operatingsystemmajrelease => 6 
operatingsystemrelease => 6.5 

processorcount => 2 

uptime => 12 days 

<!-- 以 上 这 些 项 ， 只 是 facter 能 获取 信息 的 一 部 分 --! > 























Facter 能 获取 到 的 信息 很 多 ， 包 括 系统 版 本 、 内 存 使 用 情况 、CPU 核 数 、 主 机 名 等 。 尽 管 如 此 ， 还 是 有 一 些 信息 是 Facter 没 有 获取 到 的 ， 那 么 这 个 时 候 ， 可 以 通过 自 定义 Facter 来 获取 需要 的 信息 。 



































Facter 分 为 三 类 ， 即 核心 facts、 自 定义 facts 和 外 部 facts， 核 心 facts 的 默认 是 自 带 的 ， 不 同 的 Facter 版 本 自 带 的 facts 略 有 区 别 。 可 以 定义 的 facts 主 要 是 后 面 两 类 ， 这 两 类 facts 定 义 的 位 置 有 所 不 同 。 自 
定义 facts 可 以 放 在 模块 下 的 facts.d 或 者 lib/facter 目 录 下 ， 目 录 结构 如 下 : 



























































files 











[root@puppetmaster ~]# tree /etc/puppet/modules/module-name/ |——facts.d | 


Q.. 


在 Puppet 3.0 之 前 ， 需 要 在 puppet.conf 文 件 中 添加 pluginsync=true 来 同步 facter，Puppet 3.0 之 后 ， 默 认 不 需要 再 添加 这 个 配置 。 凡 是 定义 在 模块 下 的 facter， 都 会 同步 到 Puppet 客 户 端 上 ， 定 义 在 facts.d 内 的 会 
同步 到 Node 的 /var/lib/puppet/facts.d 目 录 下 ， 定 义 在 lib/facter 内 的 Facter 会 同步 到 客户 端 /var/lib/puppet/lib/facter 目 录 下 。 


ifconfigpath.rb lib| facter | rubypath.rb ———— manifests | 





外 部 facts 可 以 放 在 /etc/facter/facts.d 目 录 下 ， 这 个 目录 是 facter 默 认 的， 凡是 在 这 个 目录 中 定义 的 fact， 直 接 通 过 Facter 命 令 即 可 查 到 变量 内 容 。 同 时 ， 还 支持 Python 编写 的 脚本 ， 只 需 输出 的 格式 
为 字典 格式 即 可 : 








#!/usr/bin/env python 

data = ("keyl" : "valuel", "key2" : "value2" } 
for k in data: 

print "$s-$s" $ (k,data[k]) 





同时 ， 还 支持 一 些 标准 的 文件 格式 ， 如 .yaml、.json、.txt。 


keyl: vall 
key2: val2 
key3: val3 
<!-- .Yaml 格 式 的 文件 如 上 --!> 
.json: JSON data, in the following format: 
{ 


"keyl": "vall", 
"key2": "val2", 
"key3": "val3" 


} 
<!--.json 格 式 的 文件 如 上 --!> 
.txt: Key value pairs, in the following format: 
keyl-valuel 
key2-value2 
key3-value3 
<!-- .txt 格 式 的 文件 如 上 --!> 








但 是 ， 定 义 在 这 个 目录 下 的 fact 内 容 不 会 自动 同步 到 其 他 客户 端 ， 需 要 配置 相应 的 Puppet 任 务 做 文件 集中 分 发 。 



































fact 的 使 用 非常 简单 ， 可 以 通过 变量 的 形式 直接 引用 ， 下 面 举 个 简单 的 例子 说 明 一 下 。 









































在 使 用 多 链 路 1SCSI 的 时 候 ， 会 用 到 Multipath 服 务 来 配置 多 链 路 负载 均衡 。 配 置 Multipath 的 时 候 ， 需 要 获取 磁盘 的 wwid， 而 wwid 需 要 通过 在 Node 上 执行 /sbin/scsi id-g/devw/sdb 来 获取 。 例 如 ， 通 
过 多 链 路 挂 载 ISCSI 之 后 ， 会 出 现 两 个 设备 sdb 和 sdc， 可 以 定义 一 个 fact， 用 来 获取 wwid， 并 将 这 个 获取 到 的 wwid 直 接 放 到 Multipath 的 配置 文件 中 。fact 的 内 容 如 下 : 


















































Facter.add(:getscsiid)do // 申明 一 个 fact 变 量 ， 为 getscsiid 
setcode do 
diskname = Facter.value ('blockdevices') 
casediskname 
when "sda, sdb, sdc" // 判断 系统 中 存在 sda，sdb，sdc 的 时 候 获 取 wwid 
Facter::Util::Resolution.exec("/sbin/scsi id -g /dev/sdb") 
else // 否则 返回 一 次 自 定义 的 wwid 


Facter::Util::Resolution.exec("echo 'abcdefgABCDEFG'") 
end 
































即 可 。 





然后 ， 在 Multipath 的 配置 文件 模板 multipath.conf.erb 中 ， 通 过 <%=@getscsiid%> 直 接应 上 
multipaths ( 
multipath ( 
wwid "<%=@getscsiid%>" 
alias ipsanmpl 


l 
} 














如 果 要 验证 在 模块 下 定义 的 fact 取 到 的 值 是 什么 ， 需 要 先 指定 一 下 环境 变量 。 


export FACTERLIB-"/var/lib/puppet/lib/facter" 

















之 后 ， 使 用 factergetscsiid 即 可 查看 获取 到 的 wwid 值 。 








3.Puppet 变 量 定义 


Puppet 变 量 可 以 有 很 多 种 用 途 ， 通 常 最 常用 的 用 途 包括 模板 赋值 和 条 件 判断 。 








模板 赋值 ， 就 是 在 推送 某 些 服务 的 配置 文件 ， 或 者 脚本 的 时 候 ， 将 需要 推送 的 内 容 定义 为 模板 文件 ， 需 




















赋值 ， 这 种 用 途 在 实际 环境 中 应 用 的 非常 广泛 。 











条 件 判断 ， 在 某 些 场景 上 ， 需 要 在 节点 中 定义 一 些 变量 ， 来 指明 一 些 参数 ，Puppet 再 通过 这 些 参数 变量 来 判断 ， 
思路 ， 就 通过 机 房 变量 和 服务 器 角色 变量 来 判断 执行 哪些 任务 。 

















20.66 ”本 章 小 结 









































要 变 的 部 分 用 <=@variable> 变 量 来 替换 ， 然 后 在 puppetnode.pp 文 件 中 使 用 $variable='abc' 来 






































体 执行 哪些 任务 ， 详 细 的 实例 可 以 参考 本 章 第 20.3 节 ， 其 中 介绍 的 任务 分 层 推送 设计 


本 章 介绍 了 自动 化 运 维 在 宿主 机 管理 中 的 运用 ， 以 自动 化 工具 Puppet 作 为 基础 ， 介 绍 了 如 何 设计 和 优化 Puppet 的 任务 架构 ， 用 Puppet 来 解决 在 平时 运 维 过 程 中 一 些 繁琐 和 低 效 的 工作 内 容 。 














宿主 机 维护 管理 问题 解决 后 ， 面 临 的 下 一 个 问题 是 监控 、 报 警 、 应 急 处 理 ， 下 章 将 介绍 虚拟 化 的 监控 、 





第 21 章 “虚拟 化 监控 、 报 警 与 应 急 响 应 方案 








业务 迁移 到 虚拟 化 环境 后 ， 最 大 的 风险 是 宿主 机 出 现 问题 的 时 候 ， 对 业务 的 影响 面 要 比 业务 原来 在 物理 机 上 大 很 多 。 
器 故障 ， 影 响 的 是 一 项 业务 ， 迁 移 到 虚拟 化 后 ， 一 台 宿 主机 故障 ， 影 响 的 是 好 几 项 业务 。 这 就 要 求 虚拟 化 相关 的 监控 、 报 警 、 应 急 响 应 方案 一 定 要 完善 ， 并 
报警 应 该 关注 哪些 点 ， 以 及 如 何 制定 和 实施 应 急 响 应 方案 等 。 














21.1 ”虚拟 化 监控 内 容 


虚拟 化 的 监控 可 以 分 为 以 下 两 个 方面 : 





“ 宿主 机 的 硬件 监控 ， 监 控 的 硬件 包括 CPU、 内 存 、 网 卡 、 硬 盘 、 电 源 、 风 肩 等 硬件 。 


报警 、 应 急 方 案 。 





Puppet 任 务 架构 ， 是 非常 值得 研究 的 内 容 ， 一 个 好 的 任务 架构 ， 绝 对 可 以 在 长 远 的 工作 中 起 到 非常 大 的 作用 ， 通 过 本 章 的 介绍 ， 希 望 读 者 能 从 中 感受 到 Puppet 的 魅力 ， 结 合 自己 的 应 用 场景 ， 设 计 出 适合 
自己 的 任务 架构 ， 使 运 维 工 作 变 得 更 简单 高 效 。 








为 将 业务 虚拟 化 ， 几 人 台 虚 拟 机 集中 在 一 台 宿 主机 上 。 未 做 虚拟 化 之 前 ， 一 台 服 务 








“ 宿主 机 的 系统 监控 ， 监 控 的 主要 是 系统 性 能 ， 包 括 CPU 利 用 率 、 内 存 利用 率 、 网 卡 利用 率 、 磁 盘 利用 率 等 指标 。 


下 面 分 别 介绍 每 个 监控 项 的 注意 点 及 监控 办 法 。 





21.1.1. 宿主 机 CPU 监控 要 点 


宿主 机 CPU 主要 关注 以 下 指标 : 





“CPU 利用 率 。 


“ 中断 及 上 下 文 切 换 。 


Q.. 


宿主 机 CPU 最 关注 的 监控 指标 是 CPU 利用 率 。 














1. 使 用 命令 查看 CPU 的 进程 情况 























系统 设计 的 目标 就 是 为 应 用 进行 服务 ， 进 程 就 是 系统 正在 运行 中 的 应 用 程序 ， 进 程 有 以 下 5 种 状态 。 














.TASK_RUNNING: 运行 状态 。 





| TASK INTERRUPTIBLE (TPH) : 被 阻塞 ， 进 程 正在 睡眠 或 者 进程 正在 等 待 某 些 条 件 ， 一 旦 条 件 触发 ， 内 核 会 把 进程 投入 运行 。 


ien 


BOXE: 


期 进行 演习 。 本 章 为 读者 介绍 虚拟 化 监控 、 


“TASK_UNINTERRUUPTIBLE (RTPH) : 与 可 中 断 状 态 类 似 ， 但 是 不 会 因为 接 到 信号 被 唤醒 。 这 个 状态 的 进程 必须 在 等 待 时 不 受 干扰 或 者 等 待 事件 很 快 就 会 发 生 时 出 现 。 由 于 处 于 此 状态 的 任务 


对 信和 号 不 做 响应 ， 所 以 使 用 得 比较 少 。 


| TASK ZOMBIE (4&JE) : 进程 已 经 结束 了 ， 但 是 其 父 进程 还 没有 进行 wait4 () 系统 调用 。 为 了 父 进程 能 够 获知 它 的 消息 ， 子 进程 的 进程 描述 符 仍 然 被 保留 着 。 一 旦 父 进 程 调用 了 wait4 O ， 进 程 描 
述 符 就 会 被 释放 。 


: TASK STOPPED (停止 ) : 进程 停止 执行 。 























下 面具 体 介绍 如 何 利用 命令 来 查看 CPU 的 进程 情况 。 





























(1) 使 用 uptime 命 令 

















uptime 命 令 是 查看 系统 从 启动 到 当前 的 时 间 ， 并 简单 显示 系统 负载 情况 ， 命 令 如 下 : 


uptime 
14:43:51 up 1 day, 5:29, 1 user, load average: 0.87, 1.44, 1.56 





load average 是 1 分 钟 、5 分 钟 、15 分 钟 内 平均 加 载 到 CPU 的 进程 数 。 














(2) 使 用 top 命 令 








top 命 令 可 以 动态 查看 系统 负载 ， 查 看 进程 对 系统 资源 的 消耗 ， 命 令 如 下 : 





top - 14:51:34 up 1 day, 5:36, 3 users, load average: 2.07, 1.71, 1.62 
Tasks: 234 total, 1 running, 233 sleeping, 0 stopped, 0 zombie 
cpu(s): 24.3$us, 21.8$sy, 0.0$ni, 51.49id, 0.6$wa, 0.0%hi, 1.8$si, O.0$st 
Mem: 64937040k total, 48433524k used, 16503516k free, 200624k buffers 
Swap: 8388600k total, Ok used, 8388600k free, 21541852k cached 

PID USER PR NI VIRT RES SHR S $CPU S$%MEM TIME+ COMMAND 

2397 qemu 20 0 17.0g 11g 5120 S 173.6 18.3 2487:27 gemu-kvm 

2851 qemu 20 0 8113m 1.2g 5112 S 79.6 2.0 1199:09  gemu-kvm 

3252 qemu 20 0 7996m 970m 5140 S 58.4 1.5 805:08.56 qemu-kvm 

2525 qemu 20 0 8130m 774m 5112 S 46.5 1.2 860:03.92 qgemu-kvm 

2336 qemu 20 0 8059m 553m 5124 S 24.6 0.9 485:02.34 qemu-kvm 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


第 一 行 和 uptime 相 同 。 





第 二 行 是 进程 的 状态 ， 分 别 是 进程 总 数 、 正 在 运行 多 进程 、 休 眠 的 进程 、 停 止 的 进程 、 僵 尸 进程 。 








第 三 行 与 CPU 相关 ， 主 要 是 各 个 项 目 对 CPU 时 间 的 利用 比例 ， 比 例 中 的 字母 代表 如 下 含义 。 

















Dus: 用 户 模式 。 


-syi 系统 模式 。 


: ni: nice 低 优先 用 户 模式 。 


dd: 空闲 。 


wa: IO 等 待 。 


hit 服务 系统 中 断 。 


“si; 服务 系统 软 中 断 。 


tst 保留 (给 其 他 DOMU 实 例 保留 的 时 间 ) 。 











第 四 行 、 第 五 行 是 系统 内 存 的 使 用 情况 。 第 六 行 是 每 个 进程 的 详细 情况 ， 含 义 如 下 。 























DPID: 进程 编号 。 

- PPID: 父 进程 编号 。 

- USER: 进程 用 户 名 。 

PR: 进程 的 优先 级 别 ， 数 字 越 小 ， 级 别 越 高 。 

DNE 进程 nice 值 ， 负 值 意味 着 更 高 消耗 ， 正 值 意味 着 更 低 消 耗 ，0 意 味 着 没有 调整 任务 优先 级 。 
VIRT: 虚拟 内 存 使 用 。 

- RES: 物理 内 存 使 用 。 

“ SHR: 共享 内 存 使 用 。 

DS: 进程 状态 ， 它 包括 以 下 状态 : S, WR; R, 247; Z, E7 RE; T， 被 追踪 或 者 停止 状态 ; D， 不 可 中 断 状态 。 
: %CPU: CPU 利用 率 ， 这 个 值 有 可 能 超过 100%， 因 为 这 个 数值 是 几 个 CPU 利用 率 的 累加 。 

“ %MEM: 内 存 使 用 百分比 。 

P TIME+: 总 的 CPU 时 间 累 加 值 。 


: COMMAND: 进程 命令 。 








(3) 使 用 ps 命令 














ps 命令 可 以 查看 进程 对 资源 的 消耗 ， 和 top 命 令 不 同 的 是 ，top 是 动态 变化 ，ps 只 显示 命令 运行 时 的 数据 ， 运 行 ps 命令 ， 结 果 如 下 : 





ps -aux 
USER PID $CPU $MEM VSZ RSS TTY STAT START TIME COMMAND 


root 
root 
root 
root 
root 
root 
root 
root 


http://www. 
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oooooooo 
oooooooo 
mDoooooooo 


0 
0 
0 
0 
0 
0 
0 
0 
c 


1 
0 
0 
0 
0 
0 
0 


o 


9356 1528 Ss 
16: 
16: 
16: 
16: 
16: 
16: 
16: 


0 


oooooo 


Quoouututu 


07 
07 
07 
07 
07 
07 
07 


ooooooo 


16: 


:00 
:00 
:00 
:00 
:00 
:00 
:00 


07 0:00 /sbin/init 


[kthreadd] 
[migration/0] 
[ksoftirgd/0] 
[migration/0] 
[watchdog/0] 
[migration/1] 
[migration/1] 


zcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





输出 内 容 与 top 命 令 差不多 ， 进 程 状态 说 明 如 下 。 


D: 


DR: 


uo 


eA 


不 可 中 断 。 


正在 运行 ， 


处 于 休眠 状态 。 


僵尸 进程 。 


或 在 队列 中 的 进程 。 


: 停止 或 被 追踪 。 


-Wi 进入 内 存 交换 (从 内 核 2.6 开 始 无 效 ) 。 


CX: 


QNS 


p 


[7 


3p. 


死 掉 的 进程 。 


高 优先 级 。 


低 优 先 级 。 


包含 子 进程 。 


: 有 些 页 被 锁 进 内 存 。 


: 位 于 后 台 的 进程 组 、 


2. 查 看 CPU 利用 率 、 中 断 、 


简单 地 说 ，CPU 中 断 是 指 CPU 接收 型 














进程 在 备 








多 线程 、 克 隆 线程 。 


上 下 文 切换 


一 般 来 说 ， 大 量 的 上 下 文 切 


(1) vmstat 命 令 


vmstat 命 令 主要 |f 





vmstat 2 
--memory--- --- 


procs 


0 


0 OOP^OOOO0PnH 
ooooooooot 


0 
0 
0 
0 
0 
0 
0 
0 


50165268 
50165260 
50165096 
50165000 
50165000 
50165000 
50164976 
50165188 
50165212 














46644 
46644 
46652 
46660 
46660 
46668 
46668 
46676 
46684 


会 影响 性 能 ， 但 是 ， 这 也 要 结合 CPU 利 | 


状态 (被 阻塞 ) ， 进 程 从 备 

















bi bo in cs us sy id wa st 


4664156 
4664184 
4664184 
4664184 
4664184 
4664180 
4664196 
4664204 
4664208 


swpd free buff cache si so 


ooooooooo 
ooooooooo 


—4— 


运行 








于 查看 系统 CPU 消耗 及 中 断 情况 ， 使 














来 自 硬件 或 者 软件 的 请 求 信 号 ， 提 示 发 生 了 某 个 对 
状态 切换 到 





状态 ， 或 者 从 运行 状态 切换 到 阻塞 状态 ， 就 是 上 下 文 切换 ， 这 样 做 的 目的 是 让 每 个 进程 都 能 使 





件 ， 应 该 被 处 理 。 一 个 逻辑 CPU 在 同一 时 间 只 能 运行 一 个 进程 ， 如 果 要 运行 的 进程 大 于 逻辑 CPU 的 数量 ， 就 会 有 




















CPU， 合 理 分 配 CPU 时 间 片 。 
































率 来 看 ， 如 果 CPU 利 





率 不 高 ， 大 量 的 上 下 文 切换 也 是 能 接受 的 。 





vmstat 命 令 2 秒 钟 刷新 一 次 ， 运 行 数据 如 下 : 


334 16 1726 201 7 7 85 10 


0 
0 
0 
0 
0 
0 
0 
0 


0 35337 76635 22 9500 
14 35202 74826 3 7 89 
18 35678 74779 2 5 93 
72 34344 76017 3 3 94 
8 35118 73650 4 7 89 0 0 
78 37400 74469 5 9 86 
46 35583 74113 4 6 88 
62 35553 75561 4 7 88 


00 
00 
00 


00 
20 
10 


和 中 断 、 上 下 文 切 换 相 关 的 选项 是 procs、system 和 CPU， 这 3 项 的 含义 如 下 。 


“ procs: 1t 为 运行 队列 中 的 进程 数量 ，b 为 等 待 I/O 的 进程 数 。 


"system: in 为 中 断 数 ，cs 为 上 下 文 切换 。 


“ cpu: 


(2) mpstat 命 令 


通过 mpstat 命 令 可 以 看 到 每 个 核 的 CPU 中 断 、 上 下 文 切换 情况 ， 运 行 数据 如 下 : 


us 为 用 户 进程 时 间 百分比 ，sy 为 系统 进程 时 间 百 分 比 ，id 为 空闲 时 间 ，wa 为 I/O 等 待 时间 。 





mpstat -P ALL 





Linux 2.6.32-431.23.3.e16.x86 64 (bg-t-11) 10/09/2014 x86 64 (8 CPU) 
04:43:38 PM CPU $usr $nice $sys $iowait $irq $soft $steal $guest $idle 
04:43:38 PM all 0.51 0.00 6.78 0.97 0.00 0.01 0.00 5.67 86.07 
04:43:38 PM 0 0.44 0.00 6.52 1.08 0.00 0.01 0.00 5.57 86.39 

04:43:38 PM 1 0.30 0.00 6.77 1.10 0.00 0.02 0.00 5.69 86.13 

04:43:38 PM 2 0.37 0.00 6.41 1.19 0.00 0.02 0.00 5.53 86.49 

04:43:38 PM 3 0.34 0.00 6.86 1.09 0.00 0.01 0.00 5.62 86.08 

04:43:38 PM 4 0.92 0.00 8.11 0.80 0.00 0.01 0.00 5.81 84.35 

04:43:38 PM 5 0.55 0.00 6.30 0.81 0.00 0.01 0.00 5.59 86.75 

04:43:38 PM 6 0.52 0.00 6.69 0.91 0.00 0.00 0.00 5.74 86.14 

04:43:38 PM 7 0.62 0.00 6.49 0.77 0.00 0.00 0.00 5.78 86.33 

(3) sar 命 令 


sar 命 令 同 mpstat 命 令 一 样 ， 也 可 以 看 到 CPU 每 个 核 的 中 断 、 


上 下 文 切换 情况 ， 运 行 数据 如 下 : 








sar -P ALL 2 
2.6.32-431.23.3.e16.x86 64 (bg-t-11) 10/09/2014 x86 64 (8 CPU) 


Linux 


04:45: 
04:45: 
04:45: 
04:45: 
04:45: 
04:45: 
04:45: 
04:45: 
04:45: 


47 PM CPU 
49 PM all 


49 PM 0 1. 


49 PM 1 
49 PM 2 
49 PM 3 
49 PM 4 
49 PM 5 
49 PM 6 


Suser $nice $system 


3.91 0.00 6.76 0.13 0.00 89.20 
62 0.00 1.62 0.00 0.00 96.76 


.07 0.00 2.14 0.00 0.00 96.79 
.14 0.00 1.70 0.57 0.00 96.59 
.69 0.00 1.12 0.00 0.00 97.19 
1.44 0.00 12.71 0.00 0.00 75.85 


33 0.00 8.17 0.00 0.00 87.50 


.33 0.00 14.76 0.00 0.00 81.90 


$iowait $steal $idle 


04:45:49 PM 7 3.48 0.00 8.96 0.00 0.00 87.56 





(4) top 命 令 


通过 top 命 令 可 以 看 到 CPU 每 个 核 的 中 断 、 上 下 文 切换 情况 ， 运 行 数 据 如 下 : 





top - 16:46:26 up 39 min, 2 users, load average: 0.14, 0.08, 0.60 
Tasks: 231 total, 1 running, 230 sleeping, 0 stopped, 0 zombie 
Cpu0 : 13.7$us, 12.8$sy, 0.0$ni, 73.5%id, 0.0$wa, 0.0%hi, 0.0%si, 0.0%st 


Cpul : 4.6$us, 7.9%sy, 0.0%ni, 87.5%id, 0.0$wa, 0.0%hi, 0.0$si, 0.0%st 

Cpu2 : 0.7$us, 1.1%sy, 0.0%ni, 98.2$id, 0.0$wa, 0.0%hi, 0.0$si, 0.0%st 

Cpu3 : 1.8$us, 1.4$sy, 0.0%ni, 96.8%id, 0.0$wa, 0.0%hi, 0.0$si, O.0$st 

Cpu4 : 5.2$us, 11.4%sy, 0.0%ni, 83.4%id, 0.0$wa, 0.0%hi, 0.0%si, 0.0%st 

Cpu5 : 1.8$us, 2.2$sy, 0.0%ni, 96.0%id, 0.0$wa, 0.0%hi, 0.0$si, 0.0%st 

Cpu6 : 1.1%us, 0.7$sy, 0.0%ni, 98.2$id, 0.0$wa, 0.0%hi, 0.0$si, O.0$st 
1 


: l.4$us, 1.8$sy, 0.0%ni, 96.1%id, 0.7$wa, 0.0%hi, O.0$si, 0.0$st 
Mem: 64937040k total, 14771044k used, 50165996k free, 47668k buffers 
Swap: 8388600k total, Ok used, 8388600k free, 4665416k cached 








如 果 要 长 期 查看 CPU 各 个 指标 的 情况 ， 可 以 使 用 监控 工具 ， 如 使 用 Cacti。 如 图 21-1 所 示 的 是 CPU 的 利用 率 、 中 断 、 上 下 文 切换 、MOWait 的 监控 图 。 








d 
8 
o 
9 
m 
5 


18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 10:00 12:00 14:00 16:00 


B system Current: 25.46 Average: 25.28 Maximum: 30.34 
Bl Kernel Current: 0.00 Average: 0.00 Maximum: 0.00 
E] Interrupt Current: 0.00 Average: 567.13 Maximum: 2.78 m 
口 SoftIRQ Current: 83.38 m Average: 123.25 Maximum: 408.38 m 
B user Current: 156.85 Average: 157.88 Maximum: 251.41 
E] Idle Current: 2.99 k Average: 2.99 Maximum: 3.00 k 
B IOWait Current: 552.82 m Average: 507.37 Maximum: 4.79 


Created using CactiEZz 





图 21-1 CPU 监控 综合 图 形 展 


zh 


图 21-2 是 CPU0 的 利用 率 监 控 图 








18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 18:00 12:00 14:00 16:00 
E CPU Utilization Current: Average: 2 Maximum: 





图 21-2 单 CPU 利 用 率 监 控 图 形 展示 


21.1.2 ”宿主 机 内 存 监 控 注意 点 


宿主 机 内 存 一 般 需 要 监控 以 下 数据 : 

“ 物理 内 存 的 情况 。 

: 内存 使 用 情况 。 

* Cache 使 用 情况 。 

. Swap 使 用 情况 。 

1. 物 理 内 存 的 情况 

为 了 有 效 使 用 内 存 ， 内 核 把 物理 内 存 分 页 使 用 ， 一 般 32 位 系统 支持 4KB 的 分 页 ，64 位 系统 支持 8KB 的 分 页 。 


内 核 把 内 存 页 分 成 以 下 不 同 的 区 (zone) 。 





: ZONE DMA: 这 个 区 用 来 执行 DMA 操 作 ， 以 便 设 备用 来 访问 。 


“ZONE_NORMAL: 这 个 区 是 给 应 用 使 用 的 页 。 


| ZONE_HIGHMEM: 高 端 内 存 ， 内 核 通过 映射 的 方式 使 用 。 





X86 上 ZONE_DMA 为 0~16MB 的 内 存 范围 ，ZONE_HIGHMEM 为 高 于 896MB 的 物理 内 存 ， 中 间 的 是 ZONE_ NORMALIX, 
































物理 内 存 不 够 用 时 ， 内 核 用 swap 模 拟 内 存 使 用 。 











物理 内 存 信息 查看 方法 如 下 : 




















@ 使 用 dmidecode 命 令 可 以 查看 物理 内 存 的 详细 信息 。 


#dmidecode 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Physical Memory Array 
Location: System Board Or Motherboard 
Use: System Memory 
Error Correction Type: Single-bit ECC 
Maximum Capacity: 64 GB 
Error Information Handle: Not Provided 
Number Of Devices: 8 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Handle 0x1100, DMI type 17, 23 bytes E 
Memory Device 
Array Handle: 0x1000 
Error Information Handle: Not Provided 
Total Width: 72 bits 
Data Width: 64 bits 
Size: 8192 MB 
Form Factor: FB-DIMM 
Set: 1 
Locator: DIMM 1A 
Bank Locator: Not Specified 
Type: DDR2 FB-DIMM 
Type Detail: Synchronous 
Speed: 667 MHz 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 











可 以 看 到 总 共有 64GB 的 内 存 ，8 根 内 存 条 ， 每 条 是 8192MB。 内 存 的 频率 等 物理 信息 也 可 以 看 到 。 











@ 使 用 /proc/meminfo 命 令 可 以 看 到 系统 对 内 存 使 用 的 详细 情况 ， 包 括 内 存 使 用 信息 、swap 使 用 信息 等 。 











#cat /proc/mrminfo 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
MemTotal: 64937040 kB 
MemFree: 31646428 kB 
Buffers: 224524 kB 

Cached: 9879320 kB 
SwapCached: 0 kB 

Active: 23831572 kB 
Inactive: 8072936 kB 
Active (anon): 21801004 kB 
Inactive (anon): 156 kB 
Active(file): 2030568 kB 
Inactive(file): 8072780 kB 
Unevictable: 0 kB 
Mlocked: 0 kB 

SwapTotal: 8388600 kB 
SwapFree: 8388600 kB 
Dirty: 48 kB 

Writeback: 0 kB 

AnonPages: 21800656 kB 
Mapped: 19268 kB 

Shmem: 504 kB 

Slab: 296572 kB 
SReclaimable: 155340 kB 
SUnreclaim: 141232 kB 
KernelStack: 2960 kB 
PageTables: 64700 kB 

NFS Unstable: 0 kB 

Bounce: 0 kB 
WritebackTmp: 0 kB 
CommitLimit: 40857120 kB 
Committed AS: 124825440 kB 
VmallocTotal: 34359738367 kB 
VmallocUsed: 620248 kB 
VmallocChunk: 34359059632 kB 
HardwareCorrupted: 0 kB 
AnonHugePages: 0 kB 
HugePages Total: 0 
HugePages Free: 0 
HugePages Rsvd: 0 
HugePages Surp: 0 
Hugepagesize: 2048 kB 
DirectMap4k: 8496 kB 
DirectMap2M: 66050048 kB 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 














2. 内 存 的 使 用 情 ; 











[ 





内 存 关 注 的 





要 指标 可 以 通过 free 命 令 查看 ， 如 








21-3 所 示 。 








total S free shared 
64937040 31645884 0 


-/* buffers/cache: 23 7 了 2 41750308 
swap: 8388600 8388600 








21-3 内存 利用 率 查看 

















@ 从 系统 角度 看 ，mem 行 分 别 是 系统 总 的 内 存 total、 被 使 用 的 内 存 used、 剩 余 的 内 存 free，total=used+free。 











“ shared 表 示 被 几 个 进程 共享 的 内 存 ， 现 在 已 经 放弃 了 ， 所 以 一 般 显示 是 0。 


“buffers 用 于 存放 要 输出 到 disk( 块 设备 ) 的 数据 。 


* cached 存 放 从 disk 上 读 出 的 数据 。 


* buffers、cached 这 二 者 是 为 了 提高 I/O 性 能 ， 由 系统 管理 。 


uffers 
224580 


cached 
9879844 























@ 从 应 用 的 角度 看 ，-/+buffers/cache 行 是 内 存 的 使 用 情况 ， 具 体 如 下 : 








- -buffers/cache， 表 示 一 个 应 用 程序 认为 系统 被 用 掉 多 少 内 存 。 


“+buffers/cache， 表 示 一 个 应 用 程序 认为 系统 还 有 多 少 内 存 。 











@swap 行 分 别 给 出 了 交换 的 总 量 (tatal) 、 使 用 量 (used) 和 剩余 空闲 的 交换 区 (free) 。 




















可 以 使 用 如 下 命令 释放 掉 被 系统 Cache 占 用 的 数据 : 




















echo 3»/proc/sys/vm/drop caches 



































使 用 监控 工具 可 以 长 期 观察 系统 内 存 使 用 。 如 图 21-4 所 示 ， 通 过 Cacti， 内 存 的 使 用 量 、 缓 存 等 信息 都 可 以 通过 监控 软件 长 期 监控 。 
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02:00 04:00 06:00 08:00 10:00 12:00 14:00 16:00 18:00 20:00 22:00 00:00 
[] Memory Used Current: 19.23 G Average: 18.65 G Min: 17.83 G Max: 
B] Memory Buffers Current: 212.41 M Average: 182.86 M Min: 140.59 M Max: 
E Memory Cached Current: 11.92 G Average: 11.50 G Min: 11.03 G Max: 
B] Memory Free Current: 30.57 G Average: 31.60 G Min: 30.57 G Max: 
E Memory Total Current: 61.93 G 


Created using CactiEZ 





H21-4 通过 监控 工具 监控 内 存 


21.1.3 ”宿主 机 网 络 监控 注意 点 


宿主 机 的 网 络 监控 关注 以 下 两 个 指标 。 





:网络 吞吐 量 : 一 秒 发 送 接收 多 少 字 节 。 


“ 网 络 发 包 : 一 秒 发 送 接收 多 少 包 数 。 


Q.. 


一 般 网 络 流量 和 业务 关系 非常 密切 ， 故 建议 也 对 网 络 的 急剧 变化 进行 监控 。 











使 用 命令 行 工具 监控 网 络 。 








(1) 通过 ethtool 命 令 查看 网 卡 状态 





例如 ， 查 看 eth0 状 态 ， 运 行 ethtool eth0 命 令 ， 如 图 21-5 所 示 。 











Settings for eth0: 


外 二 





Supported ports: [ TP 

Supported link modes: 10baseT/Half 10baseT/Full 
100baseT/Half 100baseT/Ful]l 
1000baseT/Full 

Supported pause frame use: No 

Supports auto-negotiation: Yes 

Advertised link modes:  10baseT/Half 10baseT/Full 
100baseT/Half 100baseT/Ful]l 
1000baseT/Full 

Advertised pause frame use: No 

Advertised auto-negotiation: Yes 

Speed:7100mb/s , 

Duplex: Full 

Port: Twisted Pair 

PHYAD: 1 

Transceiver: internal 

Auto-negotiation: on 

MDI-X: Unknown 

Supports wake-on: g 

Wake-on: g 

Link detected: yes 


图 21-5 ”通过 ethtool 命 令 查看 网 卡 连接 速度 


宿主 机 正式 上 线 前 ， 建 议 先 使 用 ethtool 命 令 查看 下 网 卡 的 实际 速率 ， 因 为 经 常 发 生 由 于 网 线 质量 问题 ， 导 致 千 光 网卡 工作 在 百 兆 的 情况 。 


(2) 通过 ifconfig 命 令 查看 网 卡 性 能 数据 





例如 ， 通 过 ifconfig eth0 命 令 来 查看 eth0 的 数据 ， 如 图 21-6 所 示 。 











Link encap:Ethernet  Hwaddr 00:21:5A:D0:32:E2 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:6111873092 errors:0 dropped:0 overruns:O frame:0 
TX packets:6108937396 errors:O dropped:0 overruns:O carrier:O 
collisions:0 txqueuelen:1000 





RX bytes:461332915825 (429.6 GiB) TX bytes:498457288914 (464.2 GİB) 











21-6 ”通过 ifconfig 命 令 查看 网 卡 发 包 吞吐 























ifconfig 查 看 的 是 累加 量 ， 从 开机 开始 一 直 在 累加 。 


(3) 通过 sar 命 令 查 看 网 卡 性 能 数据 








sar 命 令 可 以 查看 每 个 网 卡 的 流量 数据 ， 图 21-7 所 示 为 命令 sar-n DEV 2 的 运行 结果 。 


04:09:04 PM 


PM 











IFACE rxpck/s txpck/s rxkB/s rxcmp/s txcmp/s rxmcst/s 
lo 0.00 0.00 5 0. 00 0. 00 0.00 
etho0 5200.48 5206. 25 : 0.00 0.00 





04:09:06 PM 


ethi 0. 00 0.00 : 0. 00 0.00 


图 21-7 通过 sat 命 令 查看 网 卡 性 能 


查看 网 络 还 有 许多 命令 ， 如 iftop 等 ， 这 里 就 不 详细 介绍 了 。 








也 可 以 通过 监控 工具 ， 








长 期 用 图 形 方式 查看 ， 如 图 21-8 所 示 为 Cacti 的 网 卡 监控 。 
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O Inbound Current: 108.87 k Average: 
E outbound Current: 50.47 k Average: 


Total: 732.68 G 


21.1.4 ”宿主 机 磁盘 监控 注意 点 


宿 








主机 的 磁盘 监控 的 指标 比较 多 ， 具 体 如 下 。 


:磁盘 吞吐 : 一 秒 读 / 写 多 少 字 节 。 


- 磁盘 IOPS: 一 秒 读 / 写 多 少 次 


“ 磁盘 利用 率 : 磁盘 操作 时 间 和 空闲 时 间 的 百分比 。 


- 磁盘 服务 时 间 : 一 般 认为 比较 理想 的 是 少 于 20ms。 


HEMER: 一 秒 读 / 写 多 少 个 扇 区 。 

















监控 方法 主要 包括 命令 行 工具 和 使 用 监控 软件 。 


使 用 命令 行 工 具 包括 以 下 方面 : 
























































@@ 使 用 iostat 命 令 查看 磁盘 性 能 ， 如 图 21-9 所 示 。 




















Linux 2.6.32-431.23.3.e16.x86 64 (bg-t-11) 10/20/2014 


avg-cpu: Xuser  Xnice Xsystem *Xiowait %steal 





16.45 0. 00 17.23 


rrqm/s ; wkB 
0. - 
0 ra 
0. - : : - 0. 
0. : : - 2. 
0 72. 
[6] 0. 











21-9 ”通过 iostat 命 令 监控 磁盘 性 能 














中 所 示 各 项 含义 如 下 。 





.rrqdm/s、wrqm/s: 每 秒 合并 的 读 / 写 操作 次 数 。 


“I/s、w/s: 每 秒 到 设备 的 读 / 写 次 数 。 


DrkB/s. wkB/s: 每 秒 读 / 写 千 字 节 数 。 


“ avgrq-sz: 平均 每 次 设备 读 / 写 操作 的 数据 大 小 (ER) o 


Davgqu-sz: 平均 队列 长 度 。 


await: 平均 每 次 设备 [/O 〇 操作 的 等 待 时 间 CEP) ， 整 个 I/O 完 成 时 间 包 括 等 待 时 间 和 服务 时 间 。 


“ svctm: 平均 每 次 设备 [/O 操 作 的 服务 时 间 (EP) ，L/O 操 作 的 时 间 。 


Outil: 一 秒 内 有 百 分 之 多少 的 时 间 用 于 I/O 〇 操作 ， 或 者 说 一 秒 内 有 多 少时 间 I/O 队 列 是 非 空 的 。 

















@ 使 用 sar 命 令 查看 磁盘 性 能 数据 ， 如 图 21-10 所 示 的 是 命令 sar-d 2 的 输出 结果 ， 各 项 指标 和 iostat 命 令 指标 相近 。 


03 


03: 
03: 
03: 
03: 
03: 


03 























:49:59 DEV rd_sec/s wr_sec/s avgrq-sz 
- dev104-0 : 0.00 0.00 0.00 
dev104-16 : .00 36.55 14.40 
dev253-0 - NU 0.00 0.00 
dev253-1 : NU 0.00 0.00 
dev253-2 ; NU 36.55 8.00 
:50:01 dev253-3 ; NU 0.00 0.00 


图 21-10 ”通过 sar 命 令 监控 磁盘 性 能 
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1.90 M 
3.20 M 











使 用 图 形 监控 工具 ， 如 图 21-11 所 示 ，21.2 节 对 使 用 监控 工具 监控 磁盘 有 更 详细 的 介绍 。 


iostat - Times - cciss/cOdO 


z 
z 
a 
z 
H 
: 
A 
5 


12 : 00 Wed 00:00 


Created using CactiEZ 





图 21-11 通过 监控 工具 监控 磁盘 性 能 
21.1.5 ”宿主 机 层面 监控 虚拟 机 的 方法 
从 宿主 机 层面 也 可 以 看 到 虚拟 机 的 一 些 性 能 数据 ， 主 要 有 以 下 3 种 途径 : 
* VirtManaget 的 虚拟 机 管理 界面 。 
- 使 用 virt-top 命 令 。 
“ 利用 Libvirt 的 API 接 口 。 


通过 VirtManager 的 虚拟 机 管理 界面 ， 可 以 实时 看 到 虚拟 机 的 CPU 利用 率 、 内 存 利用 率 、 磁 盘 香 吐 、 网 络 吞吐 ， 但 是 不 能 看 到 更 详细 的 信息 ， 如 每 个 CPU 的 利用 率 情 况 ，CPU 的 中 断 、 上 下 文 切换 情 
况 ， 也 不 能 查看 历史 情况 ， 如 图 21-12 所 示 。 








使 用 virt-top 命 令 可 以 查看 更 详细 的 信息 ，virt-top 命 令 和 Linux 系 统 的 top 命 令 非 常 类 似 ， 运 行 后 界面 如 图 21-13 所 示 。 


按 1 键 ， 可 以 查看 每 个 虚拟 机 对 每 个 CPU 的 详细 使 用 情况 ， 如 图 21-14 所 示 。 
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Boot Options 
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图 21-12 ”通过 VirtManaget 查 看 虚拟 机 性 能 


p HZ MB 4.4X 
6 domains, : es 5 running, 0 sleeping, 0 paused, 1 inactive D:0 0:0 x:0 
PU: 1.6% Mem: 25600 MB (25600 MB by guests) 
S RDRO WRRO RXBY TXBY %CPU %MEM TIME NAME 
3 6527 4267 : 6.0 807:34:00 windows-9 
0 7156 8539 .2 22.0 114:01:44 centos6464-12 
21 4956 5941 : 6.0 81d11:14 centos6464-11 
2 7372 8789 .2 22.0 106:35:41 centos6464-14 
1 15K 9723 .2 22.0 103:31:48 centos6464-13 


Op :27:0 x8 3 -IX 
6 domains, 5 active, 5 rth 0 sleeping, Sausai, 1 Kardan aN: D: 0 0:0 X:0 
PU: 9.0% Mem: 25600 MB LUE. MB Ey SUNSES 


S6c PU waindows-9 ( C . ÇË 5464-13 centos6464-14 


uJ 


Hp 


HO O4 uOodO0:1-JoOorn'OHP n nmHNgÓ0)Oí HP Oo £& 0 uw 
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图 21-14 通过 virt-top 命 令 查 看 虚拟 机 CPU 详细 性 能 








按 2 键 ， 可 以 查看 每 个 虚拟 机 每 个 网 卡 的 网 络 吞吐 ， 如 图 21-15 所 示 。 











irt-top PTT MB 4.5% 5 
6 domains, 5 active, 5 Fübnins. 0 sleeping, 0 paused, 1 inactive D: 0 
PU: 1.0% Mem: 25600 MB (25600 MB by quests) 


XBY TXBY RXPK TXPK DOMAIN 
503 4462 

378 centos6464-1 
42 centos6464-1 
centos6464-1 
Q centosóe464-1 
Q centoasóe464-1 
Q centos6464-1 
Qo 
» 


R 
R 
R 
R 
R 
R 
R 
R 


2 -1 





图 21-15 ”通过 virt-top 命 令 查 看 虚拟 机 网 卡 性 能 








按 3 键 ， 可 以 查看 每 个 虚拟 机 每 块 磁盘 的 吞吐 ， 如 图 21-16 所 示 。 











E . 5% 4.5% 1.1% 0.9% 4.4% 

domains, : active, 5 running, 0 sleeping, 0 paused, 1 inactive D:O 0:0 x:O 
PU: 5.6% Mem: 25600 MB (25600 MB by guests) 

RDBY RDRO 


J 
^ 


WRR 


WRBY 
o 


windows-9 

centosó6464-1 
centosó6464-1 
centosó6464-1 
centosó464-1 





图 21-16 ”通过 virt-top 命 令 查看 虚拟 机 磁盘 性 能 





virt-top 默 认 3 秒 刷新 一 次 ， 按 D 键 ， 如 图 21-17 所 示 ， 可 以 更 改 刷新 频率 。 











p HZ MB 
domains, 5 oa 5 Pionira, Q0 sleeping, 0 paused, 1 inactive D:O 0:0 x:O 
PU: 0.0% Mem: 25600 MB (25600 MB by guests) 
hange delay from 3.0 to: 

S RDRO WRRO RXBY TXBY MAME 
centoso464-11 


WC PL ET EM TIME 


0.0 114:01:47 
0.0 103:31:52 
0.0 106:35:44 


centos6464-12 
centosóo464-13 
centos6464-14 


0.0 897:34:46 windows-9 





图 21-17 修改 virt-top 命 令 刷 新 频率 











具 也 支持 直接 从 Libvirt 的 API 接 口 取 得 数据 并 画图 。 














通过 Libvrit 的 APl， 也 可 以 取得 虚拟 机 的 性 能 数据 ， 然 后 通过 监控 工具 以 画图 形式 表现 出 来 。 一 些 第 三 方 的 监控 工 : 









































情况 、 每 个 进程 对 资源 的 消耗 情况 等 ， 所 











通过 宿主 机 层面 监控 到 的 虚拟 机 性 能 数据 只 能 是 比较 粗 的 状态 ， 没 有 办 法 取得 详细 的 数据 ， 如 虚拟 机 CPU 的 上 下 文 切换 及 中 断 数据 、 内 存 的 缓存 、swap 使 
以 ， 要 监控 虚拟 机 的 详细 数据 ， 还 需要 从 虚拟 机 内 部 进行 监控 











21.2 ”监控 软件 Cacti、Zabbix 

















Zabbix 监 控 宿 主机 关键 指标 的 方法 。 











Zabbix。 下 面 分 别 介绍 下 








Cacti、 





机 监控 软件 是 Cacti、 





的 宿主 








的 监控 软件 很 多 ， 比 较 常 




















目前 , 常 





21.2.1 用 Cacti 监 控 宿主 机 





Cacti 的 特点 是 通过 SN MP 得 到 被 监控 设备 数据 ， 不 需要 在 被 监控 的 服务 器 上 安装 agent， 绘 图 漂亮 。Cacti 安 装 资料 比较 多 ， 本 书 不 介绍 如 何 安装 搭建 Cacti， 主 要 介绍 如 何 给 Cacti 添 加 磁盘 、CPU、 内 
存 模板 ， 以 方便 能 监控 到 宿主 机 更 多 的 关心 指标 。 








虚拟 化 的 一 个 难点 就 是 磁盘 /O 的 监控 ， 一 般 需 要 关注 磁盘 /O 的 IOPS、 延 时 、 知 吐 等 指标 。 下 面 介绍 3 个 Cacti 模 板 ， 可 以 很 好 地 监控 磁盘 、CPU、 内 存 。 


1.Cacti-iostat 模 板 











可 以 看 到 监控 到 的 磁盘 相关 指标 非常 详细 。 


Dj] 








Cacti-iostat 模 板 用 于 对 iostat 命 令 的 输出 进行 绘图 ， 图 21-18 至 图 21-23 所 示 的 是 Cacti-iostat 模 板 监控 到 的 磁盘 I/O 指 标 抓 图 ， 























/ 100 


YH3NMI130 ISAL 
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18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 


0.00 Max: 0.00 Current: 0.00 
0.00 Max: 7.60 k Current: s a p A Kk 
0.00 Max: 7.60 k Current: 3.31 k 


Created using CactiEZ 
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图 21-18 ”磁盘 吞吐 监控 
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21-19. s XE Queue size 监 控 








/ 10 


H3MII13O0 IHOL 


LE 


10:00 12:00 14:00 16:00 18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 
B] Average request size Average: 7.49 Min: 0.00 Max: 16.86 Curren 


Created using CactiEZ 





图 21-20 ”磁盘 Average 监控 


g.o EA AAT 74 Wl tini AM Tl Jn 


10:00 12:00 14:00 16:00 18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 


E] Reads Average: 0.00 Min: 0.00 Max: 0.00 Current: 
B Writes Average: 3757.39 m Min: 0.00 Max: 1.50 Current: 
ll] Merged Reads Average: 0.00 Min: 0.00 Max: 06.00 Current: 
B] Merged Writes Average: 78.47 m Min: 0.00 Max: 352.00 m Current: 


Created using CactiEZ 


/ 10 


requests/sec 
H331130 IHOL 





图 21-21 磁盘 IOPS 监 控 


Rola Ey a 


10:00 12:00 14:00 16:00 18:00 20: Anaon ENS 22:00 00:00 02: T 04:00 06:00 08:00 


B] await Average: 16.69 Min: 0.00 Max: 34.08 Current: 19.89 
B svctm Average: dorm Min: 0.00 Max: 9.57 Current: 4.45 
ctiE7 


Created using Ca 





图 21-22 ”磁盘 延 时 监控 
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Created using CactiEZz 





图 21-23 ”磁盘 利用 率 监 控 


Cacti-iostat 模 板 配 置 稍微 复杂 一 些 ， 下 面 进行 详细 介绍 。 





(1) 配置 Cacti 服 务 器 端 
Cacti-iostat 模 板 的 下 载 地 址 是 https://github.com/markround/Cacti-iostat-templates， 下 载 之 后 解压 可 以 看 到 如 下 3 个 目录 。 
“ [scripts]: 客户 端 脚本 。 
“ [snmp. queries]: snmp 配 置 文件 。 
* [templates]: Cacti 模 板 。 
[scripts] 目 录 中 是 客户 端 脚本 ，[snmp_queries] 目 录 中 是 snmp 配 置 文件 ，[templates] 目 录 中 是 Cacti 模 板 。 
Cacti 模 板 有 以 下 13 个 文件 ， 首 先 ， 需 要 将 13 个 模板 文件 依次 导入 Cacti 服 务 器 。 
* cacti data query iostat - kbytessec.xml 
* cacti data query iostat - queue size.xml 
* cacti data query iostat - requestssec.xml 
* cacti data query iostat - request, size.xml 
* cacti data query iostat - times.xml 
* cacti data query iostat - utilisation.xml 
* cacti data template iostat - io.xml 
* cacti, graph. template. iostat, - bytessec.xml 
* cacti. graph. template, iostat - queue, size.xml 
* cacti graph template, iostat, - requestssec.xml 
* cacti. graph template iostat - request size.xml 


* cacti graph template iostat - times.xml 








* cacti. graph tem ate iostat - utilisation.xml 





操作 步骤 如 下 : 





@ 如 图 21-24 所 示 ， 在 Cacti 控 制 台 左 侧 的 模板 中 选择 导入 模板 。 

















图 21-24 Cacti 导 入 模板 





@ 如 图 21-25 所 示 ， 选 择 Cacti-iostat 模 板 ， 再 导入 。 














ifthe XML file containing template data is located on your local hine, selectit here. (iiis. cacti data query iostat- " kbytessec. xml 





Import Template from Text 
If you have the XML file containing template data as text, you can paste it into this box to 
import it. 











— € 图 Select your RRA settings below (Recommended) 
Choose whether to allow Cacti to i custom RRA settings from imported templates 
Wet as i "  Ouseaistom RRA settings from the template 


A iated RRA's Hourly (1 Minute Average) ^ 
Which RRAs to use when entering data (It is recommended that you deselect unwanted 
values). 











Ej21-25 4#] 入 Cacti-iostat 模 板 





@@ 如 图 21-26 所 示 ， 导 入 后 会 提示 成 功 。 然 后 ， 








limi 





ESENE, T&hrüliliCacti-iostatt&ls ap SA, 














(2) 将 SNMP 配 置 文件 放 入 Cacti 服 务 器 目录 

















将 snmp _queries/linux/ 目 录 下 的 iostat.xml 文 件 传 到 Cacti 服 务 器 resource/snmp_queries/ 目 录 下 ， 并 参考 其 他 的 Cacti 的 xml 文 件 权限 ，chown 修 改 新 导入 的 配置 文件 。 


Cacti 服 务 器 端 配置 成 功 后 ， 被 监控 服务 器 也 需要 配置 。 


Cacti has imported the following items: 


CDEF 


[success] Multiply by 1024 [update] 
[success] Total All Data Sources, Multiply by 1024 [update] 


GPRINT Preset 

[success] Normal [update] 

Data Input Method 

[success] Get SNMP Data (Indexed) [update] 
Data Template 

[success] iostat - I/O [new] 

Graph Template 

[success] iostat - Bytes/sec [new] 


Data Query 





[success] iostat - kBytes/sec [new] 


图 21-26 ”Cacti-iostat 模 板 导 入 成 功 


(3) 被 监控 端 配置 








1) 配置 定时 任务 。 将 script 目 录 下 的 iostat.pl 放 到 被 监控 服务 器 的 /bin 目 录 下 ， 配 置 可 执行 权限 ， 并 编写 一 个 cacti_iostat.sh 脚 本 ， 用 于 crontab 的 执行 。 




















t/cacti iostat.sh 


IOSTAT-/usr/bin/iostat 
cd /tmp && $IOSTAT -xkd 15 4 -N |sed 2d | sed -n /^$/,/^$/p > io.tmp && mv 
-f io.tmp iostat.cache 





然后 修改 crontab， 让 脚本 一 分 钟 跑 一 次 。 




















2) 配置 SNMP。 下 面 是 经 常 使 用 的 一 个 脚本 ， 输 入 SNMP 账 号 、 密 码 就 可 以 将 被 监控 服务 器 的 SNM Pv3 配 置 起 来 。 





cat /r ti tune.sh 

YUM-/u. n/yum 

SNMPWALK-/usr/bin/snmpwalk 

#get_oPtions 函 数 ， 得 到 用 户 输入 参数 

get options() ( 

T # Note that we use `"$@"' to let each command-line parameter expand to a 

# separate word. The quotes around `$@' are essential! 
# We need TEMP as the ‘eval set --' would nuke the return value of getopt. 


TEMP-'getopt --options hvU:P: \ 
--long help,version,username:,password: V 


-- "sn 
if [ $ !2 0 ] ; then echo "Terninatinghttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/..." >&2 ; exit 1 ; fi 
# Note the quotes around ^$TEMP': they are essential! 


eval set -- "STEMP" 
while true ; do 
case "$1" in 
-h|--help) help ; exit ;; 
-v|--version) print version ; exit ;; 
-U|--username) USERNAME-$2 ; shift 2 ;; 
-P|--password) PASSWORD-$2 ; shift 2 ;; 
--) shift ; break ;; 
*) echo "Internal error!" ; exit 1 ;; 
esac 
done 


} 
#check_options 函 数 ， 检 查 用 户 是 否 输入 参数 ， 如 果 没 有 ， 则 提示 用 户 输入 参数 
check options() ( 


while [ -z "SUSERNAME" ]; do 
printf "Please input $s: " "Snmpv3 username" 
read USERNAME 
done 
while [ -z "SPASSWORD" ]; do 
printf "Please input $s: " "Snmpv3 password" 
read PASSWORD 
done 
} 
# 检 查 是 否 是 root 用 户 


run check() { 
# check for user ID - has to be root 


if [ S((UID)) != 0 ]; then 
echo 'You need to run this script as ROOT user' >&2 
exit 2 

fi 


# 检 查 是 否 安 装 了 需要 的 SNMP 组 件 ， 如 果 没有 则 通过 yum 命 令 安 装 
# check the packages 
for pkg in sysstat.x86 64 net-snmp.x86 64 net-snmp-utils.x86 64 net-snmp-devel.x86 64 
do 
$YUM list installed|grep $pkg »/dev/null 2»&1 
if [ $ != 0 ];then 
echo "$pkg does not existed" 
SYUM -y install $pkg »/dev/null 2>&1 
if [ $ = 0 ];then 
echo "$pkg install successfulhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/0EBPS/Text/... 
fi 
fi 
done 


} 
# 配 置 snmp v3 
cacti tune() 


{ 
/etc/init.d/snmpd stop >/dev/null 
/usr/bin/net-snmp-config --create-snmpv3-user -ro -a $PASSWORD -A MD5 SUSERNAME >/dev/null 
/etc/init.d/snmpd start >/dev/null 
# 测 试 配置 是 否 生效 
if SSNMPWALK -v3 -u $USERNAME -l auth -a MD5 -A $PASSWORD 127.0.0.1 if »/dev/null;then 
echo 'Snmpwalk OKhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
Snmpv3 setup donehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/...' 
else 
echo 'Snmpwalk error, you need to check it manul !!' 
exit 2 


fi 
# 配 置 磁 盘 性 能 脚本 
if ! grep "pass .1.3.6.1.3.1 /usr/bin/perl /bin/iostat.pl" /etc/snmp/snmpd.conf 
»/dev/null 2»&1;then 

echo "pass .1.3.6.1.3.1 /usr/bin/perl /opt/scripts/iostat.pl" »»/etc/snmp/snmpd.conf 
fi 
/etc/init.d/snmpd restart »/dev/null 
/sbin/chkconfig snmpd on »/dev/null 
echo "Cacti IO monitoring setup donehttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
} 

run check 

get options "$Q" 

check options 

cacti tune 





3) 测试 。 在 Cacti 服 务 器 执行 snmpwalk 命 令 ， 探 测 配 置 是 否 成 功 。 





snmpwalk -v3 -1 authPriv -u test -a MD5 -A password -x DES -X password ip 

















连接 成 功 后 会 输出 非常 多 的 信息 。 接 下 来 ， 在 Cacti 中 添加 相应 的 监控 ， 单 击 相应 服务 器 的 status， 用 鼠标 拉 到 页 
相应 的 “query”， 如 iostat-Utilisation， 然 后 单 击 “VerboseQuery” 项， 在 新 的 页 面 中 可 以 看 到 类 似 下 面 的 信息 : 








mj 
m 
Ej 


, f£ "AssociatedData Queries” 选 项 中 单 击 “Add Data Query: ”项 ,添加 























Running data query [12]. 

+ Found type = '3' [snmp query]. 

* Found data query XML file at '/var/www/html/cacti/resource/snmp queries 
/iostat.xml' 

* XML file parsed ok. 

+ Executing SNMP walk for list of indexes 8 dede sls dit 

* Index found at OID: '1.3.6.1.3.1.1.1' value: VA 

+ Index found at OID; '1.3.6.1.3.1.1.2' value: '2' 

* Index found at OID; '1.3.6.1.3.1.1.3' value: '3' 

+ Index found at OID: '1.3.6.1.3.1.1.4' value: '4' 

* Index found at OID: '1,3.6.1.3,1.1.5' value; '5' 

* Index found at OID: '1.3.6.1.3.1.2.1' value: 'sda' 

* Index found at OID: '1.3.6.1.3.1.2.2' value: 'sdal' 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
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接着 ， 拉 到 页 面 最 上 方 ， 选 择 CreateGraphs for this Host， 选 择 相应 的 磁盘 ， 单 击 “create” 按 钮 即 可 。 过 一 段 时 间 ， 就 可 以 看 到 图 形 出 现 了 。 如 果 没 有 图 形 出 现 ， 可 以 检查 以 下 两 个 问题 。 
: SELinux 是 否 关闭 。 
将 延 时 设置 更 大 ， 有 时 候 查 询 没 有 数据 ， 将 延 时 从 500ms 设 置 成 1000ms 或 者 更 高 便 可 解决 。 


2.Cacti cpu _full 模 板 





宿主 机 CPU 的 Cacti 监 控 ， 可 以 使 用 如 下 链接 的 Cacti_ cpu_full 模 板 : 





http:// forums.cacti.net/viewtopic.Phpf=12&t=42227 
http:// download.csdn.net/detail/zhang0506/6318683 





效果 如 图 21-27 所 示 。 





10:08 12:00 14:00 16:00 18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 


ll System Current : 33.76 Average: I Maximum: 107.63 
B] Kernel Current: 0.00 Average: 0.00 Maximum: 0.00 
E] Interrupt Current: 0.00 Average: 81.02 u Maximum: 2.78 m 
O Soft IRQ Current: 56.53 Average: 61.59 m Maximum: 83.33 m 
B user Current: 19.43 Average: 19.47 Maximum: 72.97 
[] Idle Current: 694.16 Average: 694.04 Maximum: 705.07 
B rowait Current : 1.95 Average: 2.54 Maximum: 28.94 


Created using CactiEz 





图 21-27 Cacti CPU 监控 模板 效果 图 


3.Cacti memmory full 模 板 











宿主 机 内 存 的 Cacti 监 控 ， 可 以 使 用 如 下 链接 的 Cacti memmory ful 模板: 

















http:// forums.cacti.net/viewtopic.phpt-24501 








效果 如 图 21-28 所 示 。 











H3XI130 ISOL 


10:00 12:00 14:00 16:00 18:00 20:00 22:00 00:00 02:00 04:00 06:00 08:00 


口 Memory Used Current: 20.47 G Average: 20.39 G Min: 20.27 G Max: 
B] Memory Buffers Current: 288.47 M Average: 285.69 M Min: 284.35 M Max: 
ll Memory Cached Current : 12.95 G Average: 12.93 G Min: 12.90 G Max: 
B] Memory Free Current: 28.22 G Average: 28.33 G Min: 28.22 G Max: 
E Memory Total Current: 61.93 G 


Created using CactiEZ 








图 21-28 ”Cacti 内 存 监 控 模 板 效 果 











CPU、 内 存 模板 的 配置 方法 很 简单 ， 将 模板 导入 Cacti 服 务 器 ， 在 配置 被 监控 机 的 时 候选 择 模板 就 可 以 了 。 


212.2 ”用 Zabbix 监 控 宿主 机 

















在 众多 的 监控 软件 中 ，Zabbix 各 项 功能 齐全 ， 在 被 监控 服务 器 上 安装 有 客户 端 ， 定 制 非 常 方便 ， 并 且 是 开源 软件 ， 是 目前 国内 使 用 最 广泛 的 监控 软件 之 一 。 























本 节 主 要 讲解 通过 Zabbix 监 控 宿主 机 的 以 下 指标 : CPU 负荷 ， 内 存 使 用 ， 硬 盘 香 吐 和 利用 率 ， 以 及 网 络 状况 。 


























1.CPU 负 荷 监控 











由 于 宿主 机 上 运行 了 许多 虚拟 机 ， 而 虚拟 机 则 被 分 配 了 一 定数 量 的 CPU， 所 以 对 于 宿主 机 的 监控 ， 从 如 下 几 方 面 入 手 : 














(1) CPU 的 负载 情况 
通常 可 以 通过 命令 行 : top、uptime、w 等 来 进行 查看 负载 ， 所 谓 CPU 负 载 指 的 是 一 段 时 间 内 任务 队列 的 长 度 ， 也 就 是 一 段 时 间 内 一 共有 多 少 任务 在 使 用 或 等 待 使 用 CPU。 


例如 : 





[root@localhost]# w 
21:03:05 up 187 days, 9:21, 1 user, load average: 1.90, 0.99, 0.60 























1.90、0.99、0.60 分 别 代 表 前 1 分 钟 ，5 分 钟 ，15 分 钟 的 平均 CPU 负载 ， 最 重要 的 指标 是 最 后 一 个 数字 ， 即 前 15 分 钟 的 平均 CPU 和 负载， 这 个 数字 越 小 越 好 。 对 于 负载 可 以 直接 使 用 Zabbix 自 带 的 监控 项 
system.cpu.load[<cpu> ，<mode>] 进 行 监控 。 其 中 : 




















< cpu 可 用 值 : 1al (默认 ) ，2.percpu。 





可 用 值 : lavgl (1 分 钟 默认 值 ) ，2.avg5 (5 分 钟 平均 ) ，3.avg15 (15 分 钟 平均 值 ) 。 


: mode 


:范例 key 





system.cbu.load[，avgl]。 





在 模板 Template OS Linux 里 添加 监控 项 ， 这 里 是 对 前 1 分 钟 、5 分 钟 、15 分 钟 的 平均 CPU 和 负载 进行 采集 和 展示 。 如 图 21-29 所 示 ， 添 加 前 1 分 钟 的 负载 值 : 
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21-290 ”在 模板 Template OS Linux 里 添加 监控 项 


























其 他 两 个 依 样 填写 好 ， 即 system.cpu.load[，avg5] 和 system.cpu.load[，avg15]。 然 后 需要 通过 图 形 进行 展示 ，Graphs 是 将 数据 展示 为 图 像 ， 给 人 以 视觉 化 效果 ，Graphs 的 配置 存在 于 主机 和 模板 
中 ， 在 刚刚 添加 监控 项 的 模板 中 ， 选 择 “监控 图 ”， 如 图 21-30 所 示 : 


CPU (14), General (5), Memory (6), OS (8), Performance (10), Processes (2), Security (2), Zabbix agent (3) 


Ee (15), 有 触发 不 (19) 
120 (24), 600 (2), 3600 (8) 


«itaw MM Template OS Linux AE (10) 项 目 (34) We (17) | 监控 图 (5)| ALMA (1) AMAN (2) Web 监控 (0) 














图 21-30 ”选择 监控 

















然后 单 击 创建 图 形 ， 如 图 21-31 所 示 ， 输 入 图 形 的 名 称 ， 选 择 所 需要 的 项 (items) . 





< 模板 清单 ”模板 : Template OS linux ”应 用 集 (10) IE (34) #3 (17) 监控 图 (5) BuXEX.() 


CPU Load 一 > 图表 名 称 


bl 


H 
a} 


BEŽA 
显示 图 标 
显示 上 班 时 间 
EE E 
百分比 线 ( 左 ) 
百分比 线 ( 右 ] 
Stav -EMIN 
DRAT 


国 国 图 图 图 


计算 的 ， 


: 





保存 | | 克隆 | 型 除 | 取消 


图 21-31 添加 监控 图 














点 击 保存 后 ， 等 待 一 个 监控 周期 (interval) ， 便 可 以 单 击 “Dashboard” 一 “监控 图 ”命令 ， 然 后 选择 刚刚 添加 的 监控 图 CPU Load 查 看 效果 ， 如 图 21-32 所 示 : 

















load (1 min average all core) [平均 ] 
load (5 min average all core) [平均 ] 0. |: 
load (15 min average all core) [平均 ] 0.84 : 0.925 1.21 





图 21-32 CPU 监控 效果 


然后 就 可 以 添加 报警 阅 值 了 ， 由 于 负载 和 CPU 的 数量 有 关 ， 例 如 ，24 核 心 的 CPU 和 8 核心 的 CPU 所 能 够 承受 的 负载 程度 肯定 不 一 样 ， 且 线 上 服务 器 的 CPU 核 数 也 多 种 多 样 ， 所 以 这 里 的 立信 按照 “当前 
负载 /CPU 个 数 ” 的 比例 来 设 定 ， 当 然 ， 这 个 可 以 根据 你 线 上 服务 器 的 实际 情况 来 定 。 例 如 ， 我 们 设 定 : 当 本 机 最 近 5 分 钟 的 负载 是 CPU 数量 的 2 倍 时 就 发 出 报警 通知 ， 触 发 器 可 以 这 样 设 置 : 





[Template OS Linux:system.cpu.load[,avgl].last (5m) }/ {Template OS Linux:system. 
cpu.num. last (0) }>2 





(2) CPU 的 使 用 率 
























































同 查看 CPU 的 负载 一 样 ， 经 常 使 用 命令 sar、top 等 进行 服务 器 的 CPU 使 用 情况 进行 查看 。 熟 悉 的 人 肯定 知道 ， 在 一 个 操作 系统 中 ， 处 理 器 需要 被 分 给 系统 内 核 、 用 户 进程 以 及 MO 等 很 多 角色 使 用 。 












































在 Zabbix 中 ， 可 以 直接 使 用 系统 自 带 的 监控 项 对 宿主 机 的 CPU 整体 使 用 情况 进行 监控 ， 具 体 监控 项 目 为 : 















































* system.cpu.util[, user] 


* system.cpu.util[, nice] 


* system.cpu.util[, system] 


* system.cpu.util[, idle] 


* system.cpu.util[, iowait] 


* system.cpu.util[, steal] 


* system.cpu.util[, interrupt] 





* system.cpu.util[, softirq] 











监控 的 添加 和 上 面 添加 负载 的 “监控 项 ”类 似 ， 完 成 后 ， 如 图 为 21-33 所 示 : 




















除了 对 整体 情况 进行 监控 外 ， 还 需要 对 每 个 核 的 使 用 情况 进行 监控 ， 以 便 及 时 调整 方式 对 cpu 的 灵活 利用 ， 例 如 ， 可 以 使 用 处 理 器 的 亲 和 性 ， 来 人 工 指定 物理 CPU 和 虚拟 CPU 的 绑 定 ， 以 达到 合理 利 
CPU 资源 的 目标 ， 手 工 绑 定 的 时 候 就 需要 看 长 期 的 CPU 压力 监控 数据 。 对 CPU 每 个 核 的 使 用 情况 ， 我 们 可 以 通过 每 个 CPU 的 某 些 指标 来 进行 查看 ， 如 idle 值 。 我 们 这 里 对 每 个 核 的 idle 情 况 进 行 了 监控 ， 也 是 
使 用 Zabbix 自 带 监控 项 “system.cpu.utill0，idle，avg1]”， 监 控 项 中 的 0 代表 cpu0，idle 表 示 为 空闲 状态 ，avg1 是 1 分 钟 ， 当 然 ， 这 里 的 参数 也 可 以 根据 需要 的 情况 来 定 ， 比 如 比较 关注 5 分 钟 或 者 15 分 钟 
的 CPU 使 用 情况 ，avg1 改 成 avg5 或 者 avg15 即 可 ， 在 模板 中 添加 完 监控 项 后 ， 查 看 效果 ， 如 图 21-34 所 示 : 




























































































从 图 21-34 上 可 以 清晰 地 看 到 ， 最 近 这 段 时 间 ， 第 29~32 颗 CPU 的 利用 率 比较 高 ， 平 均 使 用 率 在 60% 左 右 ， 实 际 上 这 是 因为 做 了 CPU 绑 定 ， 将 业务 压力 比较 大 的 那个 虚拟 机 绑 定 在 了 最 后 面 几 个 CPU 























平均 
idle time i ; i 82.39 $ 
user time i | i 14. 17 ^ 
system time i i 297% 
iowait time l i : i 0.05 $ 
nice time i i 0*5 
interrupt time i i : + 0.00086 * 
softirq time : i l i 0.42 ^ 
steal time i i 0 


Seesseses 





国 口 国 回回 加 故国 


图 21-33 ”CPU 监控 项 


(3) CPU 的 jumps 








CPU 的 jumps 主 要 是 监控 设备 中 断 数 和 上 下 文 交 换 次 数 。 现 在 Linux 大 多 基于 抢占 式 ，CPU 给 每 个 任务 一 定 的 服务 时 间 ， 当 时 间 片 轮转 的 时 候 ， 需 要 把 当前 状态 保存 下 来 ， 同 时 加 载 下 一 个 任务 ， 这 个 过 
程 叫做 上 下 文 切换 。 时 间 片 轮转 的 方式 ， 使 得 多 个 任务 利用 一 个 CPU 执行 成 为 可 能 ， 但 是 保存 现场 和 加 载 现场 ， 也 带 来 了 性 能 消耗 。 




















那 线程 上 下 文 切换 的 次 数 和 时 间 以 及 性 能 消耗 如 何 看 呢 ? Zabbix 自 带 的 监控 项 为 : 











* system.cpu.intr; 


* System.cpu.switches; 





读者 可 以 自己 添加 ， 添 加 完成 后 效果 如 图 21-35 所 示 。 














(4) CPU 主 频 监控 





Intel 的 E5 系 列 CPU 有 自动 调频 的 功能 ， 称 为 害 频 技术 。 它 可 以 根据 系统 的 压力 ， 自 己 调整 工作 频率 ， 





主要 是 为 了 省 电 。 通 过 Zabbix 也 可 以 将 CPU 的 频率 监控 起 来 ， 效 果 如 图 21-35 所 示 : 




















2. 内 存 使 用 监控 












































宿主 机 的 内 存 使 用 主要 从 物理 内 存 和 虚拟 内 存 两 方面 进行 监控 。 物 理 内 存 监控 的 项 目 有 总 物理 内 存 、 可 
Swap 内 存 百 分 比 ， 使 用 Zabbix 自 带 的 监控 项 即 可 满足 需求 ， 如 图 21-36、 图 21-37 所 示 : 


























物理 内 存 百 分 比 ; Swap 内 存 监控 项 目 有 总 Swap 内 存 、 可 












































60 5 
AR a a 8 8 5 8 3 $5 9" 8 9 3 S8 S 
sS 8 8 8 3 S 8 8 8 8 8 8 8 3 8 
S 
3 
最 新 最 小 平均 最 大 
Cpu idle 1 [435] | 6728* 5699 * 678  8756* 
Cpu idle 2 [435] 79.8 * 70.33 9 79.8* 29139 4 
Cpu idle 3 [平均 ] 83.92% 71.12% 83.925 923 * 
Cpu idle 4 [F] 84.68% 68.62 8468% 96815 
Cpu_idle_5 [平均 ] 85.68% 73.36% 85.68% 96725 
F) Cpu. idle 6 [平均 ] 86.85% 6442 8685 Á 98.99 ^ 
E] Cpu idle 7 [F] 82.86 ^ 59 8286 98.925 
Cpu idle 8 [平均 ] 85.22% 65.91% 85.22%  Á 99.58 5 
Cpu idle 9 [平均 ] 83.56 5285% 83.56% 94.37% 
Cpu idle 10 [F3]  89.64** 76.95% 89.64% 98.48 5 
Cpu idle 11  [-E33] 91.12% 66.24% 89112  Á 99.11 5 
Cpu idle 12 [#3]  916* 6235% 916 99.835 
Cpu idle 13 [平均 ] 98.63% 9222% 98.63% 99.88 *5 
Cpu idle 14 [平均 ] 99.375 958* 99.375 100 5 
Cpu idle 15 [平均 ] 99.04% 91.49 ^ 99.04 5 100 $ 
回 Cpu idle 16 [平均 ] 98.725% 8416% 98.725 100 * 
Opu idle 17 [平均 ] 9272% 86.355% 39272* 95.635 
Opu idle 18 [平均 ] 933* 8416%  À 9335 967 * 
[]Opu idle 19 [平均 ] 393.59 $4 87025% 293594 97.625 
[]Opu idle 20 [#3] 94.74% 8673% 94.74% 98.925 
C] Cpu_idle_21 [#34] 91.56% 71.67% 91.565 99 2 5 
Cpu idle 22 [F3] 94.48 * 68.82% 9448 99.48 5 
Opu idle 23 [35] 91.55% 50.85% 9155 99.98 5 
Cpu idle 24 [平均 ] 96.12% 78.06% 9612% 99.975 
Cpu_idle 25 [F#4] 96.82% 9281% 9682 99.215 
Cpu_idle_26 [平均 ] 95.81% 8259% 95.81% 99.55 5 
]lCpu idle 27 [平均 ] 969454 849 à 9694  À 99 66'* 


Cpu idle 28 [平均 971 8627 971 99.825 
Cpu idle 29 [平均 — 639 $ 51.78% — 639 à 78.84 ^ 
Cpu idle 30 [平均] 69.49 $ — 616'*8 6.498 78.79 ^ 
Cpu idle 31 [F3] 69.47 8 59.39 & 69.47% 88.96 ^ 
Cpu idle 32 [平均] 6.64% 63.601 $ 69.64% 79895 





图 21-34 CPU 利 用 率 监 控 图 
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最 新 最 小 平均 X 
E Context switches per second [平均 ] 136.99 Ksps 129.8 Ksps 131.97 Ksps 136.99 Ksps 
Bl interrupts per second [平均 ] 75.91 Kips 70.58 Kips — 72.46 Kips 75.91 Kips 

















图 21-35 CPU jumps 
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默认 的 Zabbix 监 控 模 板 中 ， 对 于 磁盘 主要 是 对 空间 使 用 情况 的 监控 ， 对 于 MO 方面 却 没有 自 带 的 “监控 项 ”， 并 且 每 台 服务 器 的 磁盘 名 称 可 能 不 一 样 (如 vda、sda、xvdb、cciss/c0d0 等 ) ， 所 以 需要 

















到 Zabbix 的 神 技 功能 之 一 的 LLD 来 发 现 磁盘 并 监控 MO， 它 可 以 做 到 自 适 应 不 同 的 磁盘 名 称 监 控 ， 其 原理 是 通过 抓 取 系统 文件 /proc/diskstats 中 的 内 容 进行 展示 。 例 如 有 以 下 内 容 。 





(1) Disk-IO By sda 


如 图 21-36 所 示 : 








第 一 个 监控 项 Disk: sda: IO: Currently: Active 表 示 I/O 的 当前 进度 ， 只 有 这 个 域 应 该 是 0。 当 请 求 被 交 给 适当 的 request_queue _t 时 MO 增加 ， 请 求 完成 时 MO 减 小 。 
第 二 个 监控 项 Disk: sda: IO (ms) 表示 花 在 MO 操作 上 的 毫秒 数 。 


(2) Disk-Bytes/second By sda 





这 2 个 监控 项 主要 用 于 监控 磁盘 的 吞吐 ， 每 秒 读 写 速率 。 
(3) Disk-Read/Write ms By sda 
如 图 21-41， 监 控 磁 盘 sda 读 写 花 费 的 毫秒 数 。 


(4) Disk-iops/second By sda 





如 图 21-42， 监 控 磁 盘 sda 的 读 写 IOPS: 
磁盘 监控 具体 如 何 实现 呢 ? 通过 如 下 几 步 : 


1) 收集 硬盘 信息 。 


Cpu, crufreq 1 
Cpu, crufreq 2 
Cpu crufreq 3 
Cpu crufreq 4 
| Cpu crufreq 5 
Cpu crufreq 6 


Z] Opu crufreq 7 


Cpu crufreq 8 
Opu, crufreq 9? 
(pu crufreq 10 
Cpu crufreq 11 
Opu crufreq 12 
Cpu. crufreq 13 
Cpu. crufreq 14 
Opu crufreq 15 
Cpu, crufreq 16 
Cpu crufreq 17 
Cpu crufreq 18 
Cpu, crufreq 19 
Cpu crufreq 20 
Cpu, crufreq 21 
(pu crufreq 22 
Cpu, crufreq 23 
Cpu, crufreq 24 
Cpu crufreq 25 
E) Opu, crufreq 26 
] Cpu crufreq 27 
] Cpu, crufreq 28 
Cpu, crufreq 29 
(pu crufreq 30 
Cpu, crufreq 31 
Cpu crufreq 32 
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图 21-36 CPU 频率 监控 


16. 07 18:02 1r 


最 小 平均 
Bl Tota! memory 126 GB 126 GB 
E] Available memory (size) 63.1 GB 63.1 GB 
Bl Available memory (5) 50.08 % 50.085 





图 21-37 ”Zabbix 内 存 监 控 


| 
| 
| 
e 
e 
9 
t. 
o 
3 


最 新 最 小 
Bl Tota! swap space 62.5 GB 62.5 GB 
O Available swap space (size) 62.15 GB 62.15 GB 
[Bl] Available swap space (*) 99.44% 99.445 














21-38 Zabbix swap lk 42 
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| 
| 
| 
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E 
B 
$ 





最 新 : 平均 最 大 
Bil Disk:sda:lO:Currently Active [#3] 0 io 0 io 0 io 0 io 
Bl Disk:sda:l0(ms) [平均 ] 60704868 ms 60668966 ms  60686904.27 ms 60704868 ms 


图 21-39 ”Zabbix 磁 盘 I/O 〇 监控 


E 
T 
e 
S 
$ 


最 最 小 3 
Disk:sda:Read:Bytes/sec [#3] 0 B/sec 0 B/sec 0 B/sec 
Disk:sda:Write:Bytes/sec [平均 ] 17254 KB/sec 168.45 KB/sec 220.46 KB/sec 





图 21-40 ”Zabbix 监 控 磁 盘 的 读 写 字 节 数 


300000000 ms 


250000000 ms 


200000000 ms 


150000000 ms 


100000000 ms 


50000000 ms 


16.07 18:05 


Ri 最 小 平均 最 大 


W Disk:sda:Read(ms) [平均 ] 10012302 ms 10012286 ms 10012289.73 ms 10012302 ms 
BlDisk:sda:Write(ms) [平均 ] 258553685 ms 258393923 ms 258476959.47 ms 258553685 ms 





图 21-41 Zabbix 监 挖 磁盘 sda 读 写 时 间 
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最 新 最 小 最 大 


Bl Disk:sda:Read:ops [平均 ] 0 iops/sec 0 iops/sec 0 iops/sec 0 iops/sec 
M Disk:sda:Write:ops [平均 ] 17 iops/sec 17 iops/sec 20.73 iops/sec 78 iops/sec 





图 21-42 ”Zabbix 监 控 磁 盘 sda 的 读 写 IOPS 


通过 脚本 收集 到 agent 端 的 硬盘 信息 ， 然 后 把 收集 到 的 内 容 用 JSON 格 式 展示 ，JSON 格 式 是 Zabbix 接 受 的 格式 ， 然 后 服务 端 通过 正则 表达 式 过 滤 出 结果 。 脚 本 内 容 如 下 : 





cat partition low discovery.sh 


#!/bin/bash 


diskarray=(`cat /proc/diskstats |grep -E "\bvd[abcdefg] \b|\bsd[abcdefg] \bl 


\bc0d0p[0~9] Vo" | grep 


-i "\b$1\b"|awk '(print $3)'|sort|uniq | 2»/dev/null') 


# 本 脚本 核心 ， 用 于 获取 本 机 器 的 磁盘 
length=${#diskarray[@]} 


printf {Va 


printf "Vt!" "data V 


"ipt 


for ((i-0;i«S$length;i-*)) 


do 


printf '\n\t\t{" 
printf "\"{#DISK}\":\"${diskarray[$i]}\"}"# 将 获取 的 磁盘 进行 展示 
if [ $i -1t $[$length-1] ];then 


' 


printf ', 


fi 
done 
printf "\n\t]\n" 
printe "yin" 





在 宿主 机 上 执行 后 的 结果 如 下 : 








"data": [ 
{"{#DISK}":"sda"}, 
] 





这 里 是 Shell 脚 本 ， 如 果 读 者 熟悉 其 他 脚本 ， 如 Python、Perl， 也 可 以 使 用 它们 来 编写 ， 只 要 保证 结果 一 致 即 可 。 


2) 修改 zabbix_agentd.conf 文 件 并 重启 。 





磁盘 信息 收集 完成 后 ， 要 修改 zabbix-agentd.conf， 需 要 在 agent 端 进行 自 定义 key 添 加 ， 具 体 如 下 : 





fadd disk discovery 

UserParameter-custom.vfs.dev.discovery,/bin/sh /opt/zabbix/partition low discovery.sh 
# reads completed successfully 

UserParameter-custom.vfs.dev.read.ops[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '(print $$4}' 

# sectors read 

UserParameter-custom.vfs.dev.read.sectors[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '(print $$6]' 

# time spent reading (ms) 

UserParameter-custom.vfs.dev.read.ms[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '(print $$7)' 

# writes completed 

UserParameter-custom.vfs.dev.write.ops[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '(print $$8)' 

# sectors written 

UserParameter-custom.vfs.dev.write.sectors[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '(print $$10}' 

# time spent writing (ms) 

UserParameter=custom.vfs.dev.write.ms[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '{print $$11}' 

# IOs currently in progress 

UserParameter=custom.vfs.dev.io.active[*],cat /proc/diskstats | egrep $1 | head -1 | 
awk '{print $$12}' 

# time spent doing IOs (ms) 

UserParameter=custom.vfs.dev.io.ms[*],cat /proc/diskstats | egrep $1 | head -1 | 

awk '{print $$13}' 





Qa 
我 这 里 的 脚本 partition_low_discovery.sh 放 在 /opt/zabbix 下 面 ， 然 后 给 予 此 脚本 755 权 限 ， 并 且 将 所 属 组 和 所 属 用 户 改 为 zabbix， 重 启 agent。 


3) 服务 端 导 入 模板 ， 设 置 正则 和 添加 模板 。 


在 Zabbix 的 Web 页 面 上 ， 点 击 “ 配 置 管 理 ” 一“ 模板”， 如 图 21-43 所 示 : 





Dashboard 资产 记录 报表 展示 本 再 管理 系统 管理 Zatree 


主机 群 组 i 主机 ”告警 屏 世 ”动作 自 定 x 图表 E0573 00 0-55 MES 





图 21-43 ”时 入 模板 操作 


然后 点 击 右上 角 的 “导入 ”， 进 行 模板 导入 ， 如 图 21-44 所 示 : 








选择 文 | 到 Template Linux Disk IO.xml 


主机 

模板 
模板 自 定义 图 表 
E IL. 


EE 
”发现 规则 
DES 
| iem 
“ 自 定义 图 表 
E 
.图片 





图 21-44 ”导入 模板 操作 

















点 击 刚刚 导入 的 模板 ， 点 击 "发 现 规则 "， 可 以 查看 具体 监控 项 内 容 如 图 21-45、 图 21-46 所 示 : 























à: Template For Linux Disk IO ”应 用 焦 (1) 项 目 (0) 触发 器 (0) ”监控 图 (0) BuEXEEE (0) | 发 现 规则 (1) | web wi? (0) 


模版 名 称 |[Template For Linux Disk IO 


图 21-45 ”发 现 规则 








项 目 原型 的 配置 
项 目 原型 之 于 Disk device discovery 
显示 1 到 8 其 8 已 发 现 








< 模板 清单 ” 模板: Template For Linux Disk IO  « 发 现 清单 自动 发 现 : Disk device discovery 项 目 原型 (8) 





CO 


Disk: ( £DISK) : Write: ops custom.vfs.dev.write.ops[( 4 DISK )] 
Disk: ( £DISK) : Write: Bytes/sec custom.vfs.dev.write.sectors[( X DISK] 
Disk: ( £DISK) : Write(ms) custom.vfs.dev.write.ms[4 XDISK)] 
Disk:( £DISK) :Read:ops custom. vfs.dev.read.ops[( €XDISK )] 
Disk: ( £DISK) :Read:Bytes/sec custom. vfs.dev.read.sectors[ ( DISK) .] 


eu 国 


D 


Disk: ( £DISK) :Read(ms) custom.vfs.dev.read.ms[(X DISK) ] 
Disk: ( £DISK) :IO:Currently Active custom. vfs.dev.io.active[( X DISK) ] 
Disk: ( £DISK) :IO(ms) custom.vfs.dev.io.ms[(£DISK)] 


eu € 





图 21-46 ”监控 项 内 容 

















然后 设置 正则 表达 式 ， 表 示 匹 配 需要 的 磁盘 格式 ， 在 Web 页 面 上 选择 “系统 管理 ”一 “基础 配置 ”一 “正则 表达 式 ”， 然 后 创建 我 们 需要 匹配 的 正则 格式 ， 如 图 21-47 所 示 : 

















名 称 | Disk IO for discovery 











表示 式 ， 表示 式 表示 式 类 型 。 区 分 大 小 写 


^(hda|hdb|sda|sdb|xvda|xvdb|vda|vdb|ccissVcOdOp[1-9])$ 结果 为 真 不 











| 保存 | | 克隆 | 删除 | 取消 | 








图 21-47 配置 正则 表达 式 





至 此 ， 准 备 工作 已 经 做 完 ， 直 接点 击 宿主 机 进行 模板 的 关联 即 可 。 然 后 ， 单 击 宿主 机 的 图 形 就 看 到 了 开头 展示 的 图 形 ， 每 个 磁盘 的 吞吐 量 和 IOPS 就 展示 出 来 了 。 
Q9. 


参考 链接 http://www.muck.net/19/getting-hard-disk-performance-stats-from-zabbix。 




















4) 网 络 I/O 监 控 。 
































宿主 机 的 网 络 VO 监 控 也 是 件 很 头痛 的 事情 ， 因 为 宿主 机 里 面 这 么 多 网 卡 ， 到 底 该 监控 哪些 网 卡 ， 不 该 监控 哪些 网 卡 ”Zabbix 也 能 很 好 地 解决 ， 可 以 使 用 Zabbix 自 带 的 监控 项 加 正则 表达 式 过 滤 即 可 满 















































首先 ，Zabbix 可 以 通过 它 的 男 一 优秀 功能 ， 即 自动 发 现 ， 这 一 功能 和 上 面 的 磁盘 发 现 是 一 样 的 原理 ， 不 过 Zabbix 本 身 已 经 提前 写 好 了 发 现 功 能 模板 ， 只 需要 在 功能 模板 进行 简单 定制 后 即 可 满足 需求 。 
































这 个 功能 已 经 自 带 在 Template OS Linux 模 板 中 了 ， 如 图 21-48 所 示 。 
PETITES 
«Sii MuR: Template OS Linux « 发 现 洁 单 ”自动 发 现 ; Network interface discovery 项 目 原型 (2) — fe: (2) 




















en 
监控 类 型 | Zabbix Agent( 被 动 式 ) "| 
监控 刍 信 | net,if discovery | 
magma) | 。 3600| 
SERM | qug 维护 时 长 
| 并 无 定义 的 的 弹性 区 癌 











新 的 弹性 区 间 (SIRE) 50| 维护 时 长 | 1-7,00:00-24:00 
保留 失去 的 资源 时 间 段 (日 记 ) [30 ] 


描述 Discovery of network interfaces as defined in global regular 
expression "Network interfaces for discovery". 




















| 保存 | | 克隆 | we | 取消 | 

















21-48 Template OS Linux 中 的 网 卡 自动 发 现 






































将 宿主 机 应 用 以 上 模板 后 ， 即 可 自动 发 现 宿主 机 上 的 所 有 网 卡 ， 然 后 可 以 看 到 每 块 网 卡 的 流量 。 同 样 ， 如 果 你 需要 过 滤 掉 某 些 不 需要 的 网 卡 ， 则 可 以 应 用 图 21-48 的 正则 表达 式 选 项 。 依 次 点 击 “ 系 统 
管理 ”一 “基础 配置 ”一 “正则 表达 式 ” 进 行 配置 ， 如 图 21-49 所 示 ， 对 lo 端口 进行 过 滤 ， 如 果 你 需要 过 滤 其 他 不 需要 的 端口 ， 依 硝 芦 画 标 即 可 。 












































Dashboard 资产 记录 报表 展示 ”配置 管理 ”系统 管理 Zatree 
分 布 管理 ”认证 管理 。 用 户 管理 。 告警 介质 类 型 。 p» EE 审计 日 志 MAAE PHE 重新 安装 


历史 记录 : 配置 主机 » 配置 模板 » 配置 发 现 规则 » 图 形 化 接口 的 配置 » 配置 正则 表达 式 


正则 表达 式 的 配置 


A | Network interfaces for discovery 


表示 式 Xe Ge j 区 分 大 小 写 


^lo$ m 过 渡 控 你 不 需要 的 网 卡 Yes 


^Software Loopback Interface 





保存 | | 克隆 | 删除 | 取消 


图 21-49 过滤 网 卡 正则 表达 式 

















如 果 需 要 看 到 发 包 数 、 丢 包 数 、 错 误 包 数 ， 都 可 以 使 用 Zabbix 自 带 的 监控 项 来 实现 。 这 里 只 监控 了 网 卡 的 发 包 数 。 监 控 Kkey 为 : “net.if.in[if，<mode>]"、"net.if.outlif，<mode>]"， 其 中 ,i 为 端 














O, "mode" 为 模式 ， 例 如 net.if,in[eth0，packets] 表 示 eth0 端 口 在 流入 方向 的 发 包 数 。 将 监控 项 添加 进 模板 后 ， 即 可 获得 对 应 的 图 形 ， 如 图 21-50 和 图 21-51 所 示 : 























E 


最 新 最 小 平均 
Bl Incoming network traffic [平均 ] 5.67 Mbps 5.67 Mbps 5.84 Mbps 
Bl Outgoing network traffic [平均 ] 50.65 Mbps 50.26 Mbps 52.69 Mbps 


图 21-50 ”Zabbix 监 控 网 卡 吞吐 

















16.07 17: 23 


最 新 
Bl incoming packets per second_eth0 [平均 ] 11.01 K 
圆 Qutgoing_packets per_second eth0 [F3] 11.76 K 


图 21-51 Zabbix 监 控 网 卡 发 包 数 











运 维 的 一 个 重要 职责 就 是 应 对 突 发 情况 ， 凡 事 预 则 立 不 预 则 废 ， 比 较 好 的 应 对 突 发 情况 的 方法 就 是 制定 应 急 预 案 ， 并 经 常 进行 演习 ， 当 紧急 情况 发 生 的 时 候 就 可 以 从 容 面 对 。 本 节 介 绍 KVM 虚 拟 机 应 急 
方案 的 制定 和 演练 注意 点 。 








虚拟 机 的 灾 备 有 以 下 两 种 思路 : 
- BERE 


.应 用 层 灾 备 。 






































图 21-52 是 虚拟 化 灾 备 方案 的 示意 图 ， 虚 拟 化 层 灾 备 就 是 做 虚拟 机 镜像 的 多 份 复制 及 快照 ， 应 用 层 做 灾 备 就 是 将 虚拟 机 像 物 理 机 一 样 灾 备 ， 原 来 在 物理 机 上 如 何 灾 备 ， 现 在 在 虚拟 机 用 同样 的 方法 进行 























灾 备 。 一 般 建 议 使 用 应 用 层 灾 备 的 方法 ， 因 为 在 虚拟 化 层 做 灾 备 ， 要 消耗 大 量 的 磁盘 空间 ， 并 且 做 多 份 快照 ， 会 影响 虚拟 机 的 性 能 ， 而 在 应 用 层 做 灾 备 ， 消 耗 的 资源 比较 少 ， 而 且 可 以 做 到 精准 备份 ， 即 只 





















































备份 必要 的 部 分 。 如 果 要 做 好 应 用 层 的 灾 备 ， 就 需要 在 应 用 层 提升 自动 化 运 维 的 水 平 ， 自 动 化 运 维 的 水 平 越 高 ， 越 有 利于 提升 灾 备 和 恢复 的 效率 。 
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IPMAC 一 样 的 空虚 拟 机 | .出 - 
| P 
IP MAC 程 序 一 样 的 空虚 拟 机 下 
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开启 程序 


EAM 


图 21-52 ”虚拟 化 灾 备 方案 





虚拟 化 层 灾 备 有 以 下 一 些 技术 手段 : 


“ 康 拟 机 镜像 多 份 复制 。 


“ 唐 拟 机 镜像 快照 。 


“ 上 康 拟 机 使 用 LVM 裸 设备 ， 然 后 通过 LVM 快 照 备 份 虚 拟 机 。 


“ 利用 qcow2 镜 像 的 块 复制 功能 进行 备份 。 


“在线 迁移 。 





下 面 介绍 具体 的 操作 方法 : 


(1) 停机 备份 ， 虚 拟 机 镜像 多 份 复制 




















在 业务 的 维护 时 间 ， 将 虚拟 机 的 镜像 复制 一 份 ， 并 复制 到 其 他 宿主 机 上 ， 这 种 方式 操作 最 简单 ， 非 常 有 效 ， 缺 点 是 只 能 业务 停机 时 间 操作 ， 备 份 的 周期 比较 长 。 








(2) 通过 快照 备份 虚拟 机 








在 线 虚 拟 机 的 快照 实际 有 两 个 层面 ， 即 磁盘 快照 和 内 存 快 照 。 在 关机 情况 下 ， 就 只 有 磁盘 快照 。 如 果 是 关机 情况 ， 虚 拟 机 的 备份 就 很 简单 。 下 面 主要 讨论 在 线 虚拟 机 的 备份 方法 。 








虚拟 机 快照 操作 命令 如 下 : 





virsh # snapshot-create-as test 
Domain snapshot 1419296749 created 





但 是 CentOS6、CentOS7 中 ， 创 建 虚拟 机 快照 的 时 候 ， 虚 拟 机 会 暂停 几 秒 ， 命 令 如 下 : 








virsh list --all 
Id Name 

















快照 信息 查看 ， 使 用 virsh snapshot-listás 


d 
a 
4 
E 
7 





virsh snapshot-list test 


Name 


1419296749 
1419296772 


Creation Time State 
2014-12-22 20:05:49 -0500 running 
2014-12-22 20:06:12 -0500 running 





也 可 以 通过 qemu-img 命 令 查看 快照 信息 ， 命 令 如 下 : 





qemu-img info test 
image: test 
file format: qcow2 


virtual size: 100G (107374182400 bytes) 
disk size: 4.0G 
cluster size: 65536 
Snapshot list: 

ID TAG 


VM SIZE DATE VM CLOCK 
1 1419296749 1.8G 2014-12-22 20:05:49 01:07:36.123 
2 1419296772 1.8G 2014-12-22 20:06:12 01:07:48.249 
Format specific information: 
compat: 1.1 


lazy refcounts: false 














将 快照 迁移 出 来 ， 并 复制 到 其 他 宿主 机 上 ， 就 可 以 完成 虚拟 机 的 备份 ， 命 令 如 下 : 





qemu-img convert -f qcow2 -0 qcow2 -s sl test.qcow2 test-sl.qcow2 








因为 快照 对 虚拟 机 的 性 能 有 影响 ， 备 份 完成 后 ， 删 除 快照 ， 命 令 如 下 : 





virsh # snapshot-delete test 1419296749 
Domain snapshot 1419296749 deleted 
virsh # snapshot-delete test 1419296772 
Domain snapshot 1419296772 deleted 
virsh # snapshot-list test 


























Name Creation Time State 
(3) 使 用 lvm 快 照 备份 虚拟 机 
如 果 虚 拟 机 全 部 使 用 的 是 ivm， 可 以 利用 lvm 的 特性 ， 通 过 lvm 快 照 备份 虚拟 机 。 























通过 |vcreate 命 令 创建 lvm 快 照 ， 命 令 如 下 : 





lvcreate -s -n CentOS7sl -L 10G /dev/testvg/CentOS7onlvm 
Logical volume "CentOS7sl" created 





通过 Ilvs 命 令 查看 快照， 命令 如 下 : 





lvs 

LV VG Attr 
CentOS7onlvm testvg 
CentOS7sl testvg 


LSize Pool Origin Data% 
owi-aos--- 200.00g 


swi-a-s--- 10.00g CentOS7onlvm 0.06 


Move Log Cpy$Sync Convert 





通过 dd 命令 将 |v 快 照 备份 到 文件 中 ， 命 令 如 下 : 





dd if-/dev/testvg/CentOS7sl of=/home/CentOS7.bak 














将 文件 复制 到 其 他 宿主 机 ， 在 恢复 的 时 候 ， 可 以 直接 使 




















(4) 使 





qcow2 块 复制 备份 


很 遗憾 ， 目 前 CentOS6、CentOS7 默 认 携带 的 QEMU 还 不 支持 qcow2 块 复制 的 功能 ， 如 果 要 使 用 














raw 格 式 的 文件 或 者 通过 dd 命令 将 备份 文件 复制 到 备用 宿主 机 上 的 Ilvm。 





这 个 功能 ， 只 能 手工 编译 QEMU 或 者 使 用 Fedaro， 下 


blockcopy 必 须 是 临时 生成 的 虚拟 机 ， 不 能 是 define 状 态 的 虚拟 机 ， 先 将 在 线 的 虚拟 机 Xxml 文 件 备份 ， 命 令 如 下 : 








H 





的 测试 需要 在 Fedaro21 上 进行 。 








Virsh dumpxml --inactive win7 »/tmp/win.xml 











然后 undefine 之 后 才能 











blockcopy， 命 令 如 下 : 








Virsh undefine win7 





将 虚拟 机 的 一 块 硬盘 blockcopy 到 /home/win72.bak 文 件 中 ， 命 令 如 下 : 





virsh blockcopy --domain win7 hda /home/win72.bak --wait --finish --verbose 块 复制 : 


[100 %] 





通过 qemu-img 命 令 查 看 ， 命 令 如 下 : 





[root8f21b home]# qemu-img info win72.bak 
image: win72.bak 

file format: qcow2 

virtual size: 50G (53687091200 bytes) 
disk size: 8.3G 

cluster size: 65536 

Format specific information: 

compat: 1.1 

lazy refcounts: false 











再 将 文件 复制 到 备用 宿主 机 上 就 可 以 。 








(5) 在 线 的 带 存 储 迁移 


有 共享 存储 的 环境 ， 在 线 迁移 很 简单 ， 从 CentOS 6.4 开 始 ， 支 持 在线 的 带 存储 迁移 ， 就 是 不 需要 共享 存储 也 能 在 线 迁 移 ， 这 是 一 个 非常 强大 的 功能 ， 操 作 方法 如 下 。 











@ 在 备用 宿主 机 上 通过 qemu-img create 命 令 创建 好 空 文件 ， 大 小 和 要 备份 的 虚拟 机 一 模 一 样 。 











qemu-img create -f qcow2 -o preallocation-metadata CentOS6.qcow2 150G 





空 文件 需 加 预 分 配 参数 ， 要 不 复制 过 去 的 文件 会 是 按照 qcow2 预 分 配 文 件 的 大 小 。 


@ 设 置 迁 移 速 度 ， 一 般 不 希望 迁移 的 时 候 对 正常 业务 造成 影响 ， 


设置 迁移 速度 限制 到 600M/s。 





virsh migrate-setspeed CentOS6 600 





启 。 


@ 迁 移 ， 命 令 如 下 : 


virsh migrate --live --copy-storage-all --unsafe --persistent CentOS6 


gemu-tssh://192.168.0.101/system 


迁移 时 间 随 磁盘 空间 大 小 而 不 通 ， 磁 盘 空间 越 大 ， 迁 移 时 间 越 长 。 迁 移 的 过 程 是 先 迁 移 磁盘 ， 然 


9... 


迁移 速度 和 成 功率 与 网 络 有 很 大 的 关系 ， 宿 主机 的 网 络 尽 量 是 万 兆 或 者 千 兆 多 网 卡 绑 定 ， 可 以 提高 迁移 速度 和 成 功率 。 


21.3.2 ”单机 虚拟 化 应 急 方 案 


工具 ， 高 端的 RAID 卡 可 以 使 用 MegaCLi64 工 具 ，HP 的 RAID 卡 可 以 使 用 HPACU 工 . 


1. 硬 件 故 障 的 检查 











从 长 期 实践 来 看 ， 单 机 虚拟 化 最 常见 的 故障 是 硬件 故障 ， 而 在 硬件 中 ， 磁 盘 故 障 的 概率 最 高 ， 所 以 ， 对 宿主 机 磁盘 的 健康 情况 
务 器 ， 带 外 管理 卡 都 支持 磁盘 的 健康 监控 ， 如 图 21-53 所 示 的 就 是 1BM 服 务 器 的 磁盘 健康 监控 ， 管 理 卡 也 支持 CPU、 内 存 、 网 卡 、 电 源 、 风 扇 等 硬件 报警 ， 所 以 ， 强 烈 建 议 将 服务 器 的 带 外 管理 卡 报警 配置 
起 来 ， 这 样 硬 件 有 故障 的 时 候 ， 就 会 自动 发 送 报警 信息 。 



































IBM Integrated Management Module ll 


System Status Events + 


Hard Disks 


Disk 0 Normal 
Disk 1 国 Normal 
Disk 2 国 Nomal 
Disk 3 Normal 


























在 宿主 机 操作 系统 内 部 也 可 以 使 用 RAID 卡 管理 工具 结合 crontab 来 实现 硬盘 健 










































































图 21-53 IBM IMM2 磁 盘 健康 状态 查看 








的 监控 是 宿 3 














的 监控。 目前， 服务 器 上 常用 的 RAID 卡 3 





























"十 








伟 查 一 次 硬盘 ， 当 发 现 有 硬盘 故障 的 时 候 ， 就 会 调用 Python 发 邮件 的 一 个 脚本 ， 发 邮件 处 理 ， 脚 本 供 读者 参考 。 














cat /bin/checkdisk.sh 

#!/bin/bash 

source /etc/profile 
myip-'/sbin/ifconfig |grep "inet addr"^ 
myname= hostname" 

echo $myip » /tmp/q.txt 

echo $myname >> /tmp/q.txt 

# 生 成 临时 文件 ， 并 把 ITP、 服 务 器 名 字 写 入 临时 文件 
check mpt () 

# 通 过 mpt 的 RAID 卡 管理 程序 ， 检 查 是 否 有 硬盘 故障 
{ 


find /bin/lsiutil.x86_64 
if [$=1 ];then ` 
bash /opt/sys scripts/misc/check disk/install.sh reinstall 
fi 
/bin/lsiutil.x86 64 -pl -a 21,2,0,0 |grep offline 
if [$=0 ];then 
echo $myip > /tmp/errmsg 
/bin/lsiutil.x86 64 -pl -a 21,2,0,0 >> /tmp/errmsg 
/usr/bin/python /bin/pymail $myname 
fi 


check Mega() 

# 通 过 megaraid 的 RAID 卡 管理 程序 检查 是 否 有 硬盘 故障 

{ 

find /bin/MegaCli64 

if[$^-21 ]; then 

bash /opt/sys scripts/misc/check disk/install.sh reinstall 


要 是 LS 和 HP 





都 可 以 在 RAID 卡 或 者 服务 器 厂商 的 网 站 上 下 载 ， 下 面 是 在 宿主 机 














民 务 器 专 有 














后 迁移 内 存 ， 迁 移 内 存 的 时 候 ， 一 般 业 务 会 瞬 断 下 。 虚 拟 机 一 瞬间 会 在 一 边关 闭 ， 另 一 边 的 宿主 机 开 





机 监控 的 一 个 重点 ， 新 一 代 Intel 志 强 E5 v2、v3 平 台 上 的 服 


Service and Support = Server Manag 


Display hard disk drives in the system. Click on a drive to see active events. 
FRU Name a Status 


的 RAID 卡 ，LSI 的 低 端的 RAID 卡 可 以 使 用 lsiutil 
上 使 用 的 一 个 脚本 ， 通 过 crontab， 每 天 在 凌晨 


fi 
/bin/MegaCli64 -PdGetMissing -aALL |grep "No Missing" 
if [$=0 ];then 
errmsg-'/bin/MegaCli64 -PdGetMissing -aALL* 
else 
echo $myip » /tmp/errmsg 
/bin/MegaCli64 -PdGetMissing -aALL »» /tmp/errmsg 
/usr/bin/python /bin/pymail $myname 


fi 

critical disk-'"/bin/MegaCli64 -AdpAllInfo -aALL | grep "Critical Disks"|sed 
's/^[ ]*7/g' |awk -F ":" '(print $2)'|sed 's/^[ 1*//g'" 

failed disk-'/bin/MegaCli64 -AdpAllInfo -aALL | grep -i "Failed Disks"|sed 
's/^[ 1*//g' |awk -F ":" '(print $2}'|sed 's/^[ 1*//g'^ 


if [ $critical disk -gt 0 -o $failed disk -gt 0 ];then 
echo $myip » /tmp/errmsg 
echo -e "An" »»/tmp/errmsg 
/bin/MegaCli64 -AdpAllInfo -aALL | grep -i -EA9 "Device Present"»»/tmp/errmsg 
/usr/bin/python /bin/pymail $myname 
else 
echo "/bin/MegaCli64 -AdpAllInfo -aALL | grep -i -EA9 "Device Present"^ 
fi 


} 

check hp() 

# 通 过 HP 的 RATID 卡 管理 程序 检查 是 否 有 硬盘 故障 
{ 

find /usr/sbin/hpacucli 


if [$=1 ];then 
bash /opt/sys scripts/misc/check disk/install.sh reinstall 
fi 


/usr/sbin/hpacucli ctrl slot-0 pd all show status |grep Failed 

if [$=0 ];then 
echo $myip > /tmp/errmsg 
/usr/sbin/hpacucli ctrl slot-0 pd all show status >> /tmp/errmsg 
/usr/bin/python /bin/pymail $myname 

fi 


} 

check RAID type () 

# 通 过 1spPci 确 定 是 哪 种 RATD 卡 

{ 

lspci |grep "MPT" |grep "LSI" > /dev/bull 
if [$=0 ¿then 

RAID type="MPT" 

check mpt 
fi i 
lspci |grep "MegaRAID" » /dev/bull 
if [$=0 ;then 

RAID type-"Mega" 

check Mega 
fi 
lspci |grep "Hewlett packard" > /dev/bull 
if [$=0 ¿then 

RAID type="HP" 

check hp 
fi; 
lspci |grep "Hewlett Packard" > /dev/bull 
if [$=0 ¿then 

RAID type-"HP" 

check_hp 
fi; E 
lspci |grep "Hewlett-Packard" > /dev/bull 
if [$=0 ;then 

RAID type-"HP" 

check hp 





dmidecode |grep "ProLiant" > /dev/bull 
if [$=0 ;then 

RAID type-"HP" 

check hp 
fi; i 








} 
check RAID type 


2. 故 障 的 应 对 方案 


m 


机 虚拟 化 服务 器 故障 分 为 硬件 故障 和 系统 故障 ， 处 理 方案 如 表 21-1 所 示 。 





表 21-1 单机 虚拟 化 故障 应 急 方案 


n *$ 操作 序号 解决 方案 
单 块 磁盘 故障 更 换 人 硬盘 

硬件 故障 RAID 卡 故 障 硬盘 迁移 到 备 机 
物理 机 宕 机 硬盘 迁移 到 备 机 

Linux 系统 崩溃 修复 / 重 装 

数据 卷 损坏 (磁盘 物理 无 故障 ) 使 用 数据 恢复 技术 尝试 





系统 、 数 据 故障 





硬件 故障 操作 方法 包括 单 块 硬盘 故障 、 更 换 同类 型 的 硬盘 、 等 待 重建 。 





I 


RAID 卡 故障 、 主 机 故障 、 其 他 硬件 故障 修复 时 间 较 长 或 无 配件 更 换 时 ， 把 故障 机 器 的 硬盘 按照 顺序 迁移 到 备 机 后 ， 对 RAID 信 息 进行 导入 操作 ， 大 多 数 RAID 会 自动 识别 ， 并 提示 是 否 要 导入 外 部 的 
RAID， 导 入 并 启动 即 可 ， 操 作 的 时 候 要 仔细 查看 提示 ， 以 免 磁盘 上 的 数据 被 错误 清除 。 


Q.. 


如 果 机 房 现场 工程 师 配 合 ， 可 以 采用 更 换 硬盘 的 方法 ， 更 换 时 要 对 硬盘 进行 编号 ， 并 将 对 应 的 硬盘 插 到 同型 号 的 服务 器 硬盘 插 档 上 。 如 果 现 场 没有 工程 师 支 持 ， 并 且 数 据 有 备份 ， 可 以 考虑 直接 把 数据 
恢复 到 备用 的 虚拟 机 上 ， 开 启 业 务 。 主 要 的 评估 点 取决 于 方案 对 业务 的 损失 最 小 ， 恢 复业 务 时 间 更 快 。 





系统 、 数 据 故障 操作 方法 如 下 : 
“ 备份 磁盘 分 区 表 。 
| 备份 MBR 及 LVM 信 息 。 


备份 分 区 表 信 息 的 操作 方法 如 下 : 





# 导 出 分 区 表 信息 

sfdisk -d /dev/cciss/c0d0 > /opt/backup/`hostname`/`data “+%Y%m%d” ^/mbr/cOd0.out 
sdfisk -d /dev/cciss/c0dl» /opt/backup/^hostname /^data “+%Y%m%d” `/mbr/c0d1.out 

Té MBR 


dd if-/dev/cciss/c0d0 of-/opt/backup/^ hostname /^data “+%Ym%d” ^/mbr/cOd0. 
mbr bs-512 count-1 
dd if-/dev/cciss/c0dl of-/opt/backup/^ hostname /^data “+%Y%m%d” ^/mbr/cOdl. 
mbr bs-512 count-1 





备份 LVM 信 息 的 操作 命令 如 下 : 





cp -r /etc/lvm/backup/ /opt/backup/^ hostname /^data “+%Y%m%d” ^/lvm 


备份 虚拟 机 配置 信息 的 操作 命令 如 下 : 





cp -r /etc/libvirt/qemu/*.xml /opt/backup/'hostname'/^data V “+%Y%m%d” ^/vmconfig 





KVM 宿 主机 系统 崩溃 的 修复 方法 如 下 : 


(1) 如 果 是 系统 故障 ， 修 复 故 障 系统 

















使 用 引导 盘 进 入 rescue 模 式 修复 系统 故障 ， 无 法 修复 或 修复 时 间 无 法 预计 时 ， 重 装 KVM 宿 主机 系统 。 











(2) 如 果 不 能 修复 ， 重 装 KVM 宿 主机 系统 





















































重 装 系统 之 前 ， 建 议 先 用 LiveCD 启 动机 器 ， 建 立 nfs， 先 将 虚拟 机 相关 镜像 文件 、xml 配 置 文件 复制 到 备用 的 宿主 机 上 ， 在 备用 宿主 机 上 开启 虚拟 机 ， 先 恢复 业务 ， 然 后 对 系统 进行 彻底 重 装 。 
































21.3.3 ”集群 虚拟 化 应 急 方案 


虚拟 化 集群 的 计算 节点 要 按照 单机 虚拟 化 进行 监控 、 报 警 。 

















虚拟 化 集群 的 计算 节点 故障 处 理 相对 比较 简单 ， 因 为 集群 一 般 使 用 共享 存储 ， 虚 拟 机 的 镜像 保存 在 共享 存储 上 ， 所 以 ， 在 计算 节点 故障 的 时 候 ， 可 以 将 虚拟 机 在 线 迁移 到 其 他 计算 节点 上 。 如 果 计算 节 
点 彻底 宕 机 ， 可 以 在 另外 的 计算 节点 上 手工 开 起 虚拟 机 ， 或 者 通过 管理 平台 配置 高 可 用 ， 计 算 节 点 宕 机 的 时 候 ， 可 以 自动 地 将 虚拟 机 在 其 他 计算 节点 上 开启 。 
































虚拟 化 集群 的 共享 存储 是 核心 ， 对 保障 共享 存储 的 安全 非常 重要 。 




















如 果 共 享 存储 使 用 的 是 商业 存储 ， 一 般 监控 报警 做 得 非常 完善 ， 建 议 按照 厂 商 相 关 文档 进行 配置 。 商 业 存储 也 不 意味 着 就 是 百 分 百 的 保险 ， 如 果 使 用 商业 存储 ， 建 议 将 异步 或 者 同步 的 备份 也 配置 起 
来 ， 这 样 万 一 存储 有 多 块 硬盘 同时 故障 的 时 候 ， 也 可 以 对 数据 进行 恢复 。 第 22 章 有 一 个 案例 ， 就 是 在 生存 环境 中 使 用 商业 存储 ， 有 多 块 硬盘 故障 ， 叶 致 50 多 台 虚拟 机 丢失 的 惨痛 教训 。 






































如 果 共 享 存储 使 用 的 分 布 式 文件 系统 ， 建 议 一 份 镜像 至 少 写 3 份 ， 对 存储 节点 的 报警 、 监 控 也 可 以 参照 单机 虚拟 化 的 方法 ， 尤 其 是 磁盘 的 监控 。 











虚拟 化 集群 的 应 急 预 案 如 表 21-2 所 示 。 


表 21-2 集群 虚拟 化 故障 应 急 方案 


故障 类 型 处 理 方案 

CD 虚拟 化 支持 工程 师 排 查 故 障 或 者 开启 备用 虚拟 机 

D 业务 运 维 配合 

宿主 机 性 能 出 现 瓶 颈 虚拟 化 支持 工程 师 在 线 迁 移 部 分 虚拟 机 到 集群 内 其 他 计算 节点 (无 停机 时 间 ) 
CD 虚拟 化 支持 工程 师 在 集群 内 其 他 宿主 机 上 重 开启 虚拟 机 





虚拟 机 故障 


(EH de - 
宿主 机 故障 Q) 业务 运 维 配合 
本 CD 虚拟 化 支持 工程 师 从 备份 恢复 数据 ， 需 要 时 间 可 能 比较 长 
存储 故障 D 业务 运 维 配合 
故障 处 理 步骤 如 下 。 


(1) 虚拟 机 故障 的 处 置 


故障 场景 : 业务 运 维 无 法 访问 到 虚拟 机 ， 但 虚拟 化 支持 工程 师 可 正常 访问 宿主 机 。 





处 置 步 又 如 下 : 














@@ 如 果 业 务 运 维 不 希望 立即 重 置 虚拟 机 ， 而 是 保留 故障 现场 并 登录 到 console 检 查 虚 拟 机 情况 ， 可 用 virsh dumpxml[vmname] 查 看 到 vnc 端 口 ， 并 提供 宿主 机 IP、 该 虚拟 机 vnc 端 口 和 vnc 口 令 给 业务 运 
维 ， 由 业务 运 维 用 vnc 访 问 虚拟 机 控制 台 后 自行 处 置 。 






























































@ 如 果 业 务 运 维 希 望 立即 重 置 虚拟 机 ， 使 用 virsh destroy[vm name] 强 行 关闭 虚拟 机 ， 然 后 重 置 虚拟 机 。 













































































@ 如 果 虚 拟 机 重 置 后 依然 无 法 使 用 ， 需 访问 虚拟 机 控制 台 排查 原因 。 如 果 该 虚拟 机 文件 系统 崩溃 导致 无 法 使 用 ， 视 实际 情况 重建 新 的 虚拟 机 并 由 业务 运 维 重新 安装 软件 。 


(2) 性 能 瓶颈 的 处 置 





故障 场景 : 虚拟 化 支持 工程 师 收 到 性 能 监控 报警 ， 提 示 某 台 宿 主机 的 某 项 性 能 超过 限 值 。 





处 置 步骤 如 下 : 


@ 登 录 性 能 监控 页 面 ， 确 认 性 能 异常 。 






































@ 登 录 有 问题 的 宿主 机 ， 使 用 virt-top 命 令 查看 每 个 虚拟 机 的 资源 使 用 情况 ， 查 看 集群 内 物理 机 资源 使 用 情况 ， 迁 移 部 分 虚拟 机 到 其 他 集群 ， 命 令 为 virsh migrate--live[vm name]--desturi 


qemu+tcp: //[new node]/system, 




















密切 关注 相关 性 能 数据 ， 视 情况 觉得 这 个 调整 是 否 是 长 期 的 ， 并 更 新 管理 平台 。 


(3) 宿主 机 故障 处 置 





故障 场景 : 虚拟 化 支持 工程 师 收 到 宿主 机 离线 报警 ， 或 者 业务 运 维 发 现 虚 拟 机 无 法 访问 后 虚拟 化 支持 工程 师 发 生 宿主 机 无 法 连接 。 











处 置 步骤 如 下 : 














@ 通 过 带 外 管理 卡 检测 宿主 机 。 如 果 有 必要 则 可 以 重启 宿主 机 。 

















@ 如 果 重 启 后 故障 依旧 ， 视 情况 在 相对 空闲 的 其 他 宿主 机 上 开启 受 影响 的 虚拟 机 。 更 新 系统 中 的 对 应 关系 。 









































@ 如 果 虚 拟 机 重 开 后 依然 无 法 使 用 ， 需 访问 虚拟 机 控制 台 排查 原因 。 如 果 该 虚拟 机 文件 系统 崩溃 导致 无 法 使 用 ， 视 实际 情况 重建 新 的 虚拟 机 并 由 业务 运 维 重新 安装 软件 。 












































业务 运 维 确 认 业务 恢 复 后 ， 与 现成 工程 师 联系 检测 维修 有 故障 的 宿主 机 。 





(4) 存储 故障 处 置 

















故障 场景 : 当 存储 软件 故障 或 其 他 无 法 预测 的 故障 而 无 法 使 用 时 ， 启 用 备用 存储 及 备用 存储 上 的 备份 数据 。 



































处 置 步骤 如 下 : 参照 具体 存储 厂商 说 明文 档 或 者 分 布 式 文件 系统 恢复 文档 。 


214 本章 小 结 


本 章 介绍 了 虚拟 化 中 监控 、 报 警 的 方法 和 笔者 的 经 验 ， 应 急 响 应 是 对 运 维 能 力 最 重要 的 考验 项 之 一 。 应 急 响 应 方案 应 做 到 逻辑 清晰 ， 考 虑 到 各 种 极端 情况 ， 最 重要 的 是 要 定期 演练 ， 一 方面 可 以 验证 方 
案 的 有 效 性 ， 另 一 方面 可 以 让 每 个 参与 人 员 能 够 熟悉 应 急 方 案 ， 再 有 紧急 情况 发 生 的 时 候 ， 就 能 比较 熟练 地 应 付 。 























下 一 章 将 为 读者 介绍 一 个 业务 在 虚拟 化 上 非常 慢 的 案例 。 


第 五 篇 ”KVM 虚拟 化 典型 案例 


“第 22 章 ”生产 环境 问题 案例 与 分 析 


第 22 章 ”生产 环境 问题 案例 与 分 析 


22.1 游戏 在 虚拟 机 上 非常 慢 的 案例 


本 章 介绍 一 个 在 虚拟 机 上 非常 奇怪 的 问题 案例 ， 当 时 花 了 很 长 时 间 才 找到 原因 ， 这 个 问题 的 解决 过 程 ， 对 解决 类 似 问题 的 思路 方法 ， 有 借鉴 意义 。 





1. 现 象 


2009 年 的 时 候 ， 在 虚拟 化 平台 下 载 了 一 款 游戏 ， 当 时 ， 宿 主机 操作 系统 是 CentOS 5.564 位 版 本 ， 虚 拟 机 操作 系统 版 本 是 Windows Server 2003 中 文 企业 版 。 到 2010 年 底 的 时 候 ，CentOS 6.0 发 
fs, CentOS 6.0 在 虚拟 化 方面 添加 了 许多 新 的 功能 ， 所 以 ， 计 划 将 这 款 游戏 逐步 迁移 到 CentOS 6.0 上 面 。 























在 迁移 的 过 程 中 ， 出 现 一 个 非常 奇怪 的 现象 ， 就 是 这 款 游戏 的 服务 器 端 在 虚拟 机 上 特别 慢 ， 在 CentOS 5.5 的 宿主 机 上 ， 游 戏 服务 器 端 程序 启动 需要 2 分 钟 ， 在 CentOS 6.0 的 宿主 机 上 ， 游 戏 服务 器 服务 
器 端 程序 启动 需要 10 多 分 钟 ， 并 且 即 使 勉强 启动 成 功 ， 用 客户 端 连 上 来 ， 也 是 非常 慢 ， 根 本 不 能 进行 游戏 。 




















2. 原 因 查 找 过 程 























经 过 和 游戏 开发 合作 ， 很 快 将 问题 定位 到 一 个 游戏 开发 中 使 用 的 函数 上 ， 游 戏 中 用 到 一 个 系统 函数 ， 即 QueryPerformanceFrequency () 。 




















(1) QueryPerformanceFrequency () 基本 介绍 
类 型 : Win32API, 


原型 : BOOL QueryPerformanceFrequency (LARGE INTEGER*lpFrequency) 。 








作用 : 返回 硬件 支持 的 高 精度 计数 器 的 频率 。 











返回 值 : 若 为 非 零 ， 硬 件 支持 高 精度 计数 器 ; 若 为 零 ， 硬 件 不 支持 ， 读 取 失 败 。 





(2) QueryPerformanceFrequency () 技术 特点 


供 WIN9X 使 用 的 高 精度 定时 器 : QueryPerformanceFrequency () 和 QueryPerformanceCounter () ， 要 求 计算 机 从 硬件 上 支持 高 精度 定时 器 ， 就 是 得 到 很 高 的 CPU 的 精度 。 








游戏 开发 写 了 一 个 程序 ， 专 门 调用 这 个 函数 做 循环 ， 输 入 的 参数 是 循环 的 次 数 ， 在 CentOS 5.5 和 CentOS 6.0 上 的 虚拟 机 ， 分 别 循环 测试 10000 次 ， 可 以 看 到 结果 相差 奖金 200 倍 。 在 CentOS 6 的 宿主 机 
上 的 虚拟 机 测试 下 来 ， 在 这 个 函数 上 面 耗 时 很 长 ， 导 致 整个 CPU 的 效率 很 低 。 
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图 22-1 CentOS 5.5 宿 主机 上 虚拟 机 函数 10000 次 耗 时 
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图 22-2 CentOS 6.0 宿 主机 上 虚拟 机 函数 10000 次 耗 时 





因此 ， 首 先 怀疑 的 是 新 版 的 KVM 对 QueryPerformanceFrequency () 这 个 函数 的 支持 是 不 是 有 缺陷 ， 导 致 出 现 这 样 的 问题 ， 但 是 从 理论 上 讲 ， 可 能 性 似乎 不 大 。 








后 来 ， 又 花 了 两 周 时 间 专 门 做 对 比 测试 ， 终 于 找到 了 原因 。 首 先 ， 将 CentOS 6 上 的 虚拟 机 复制 到 CentOS 5.5 上 ， 发 现 问题 会 浮现 ; 然后 ， 将 CentOS 5.5 上 的 虚拟 机 复制 到 CentOS 上 ， 发 现 不 会 出 现 
问题 。 

















到 这 一 步 ， 怀 疑 是 不 是 CentOS 6 这 个 版 本 上 的 虚拟 机 镜像 制作 有 问题 。 于 是 ， 重 新 安装 了 一 个 纯净 版 的 Windows 系 统 ， 重 新 测试 ， 发 现 不 会 出 现 问题 ， 现 在 ， 问 题 应 该 可 以 定位 到 镜像 配置 上 了 。 

















然后 ， 又 对 镜像 配置 进行 了 详细 的 检查 ， 对 每 项 配置 进行 了 关闭 及 开启 对 比 测试 ， 终 于 找到 了 原因 ， 在 同时 具备 以 下 3 个 条 件 时 ， 会 触发 问题 而 导致 游戏 很 慢 : 


























Qc: \boot.ini 里 面 的 两 个 参数 usepmtimer、pae 同 时 添加 、 使 用 QueryPerformanceFrequency () 函数 。 











@usepmtimer 是 为 了 保证 虚拟 机 走时 准确 ， 所 有 的 虚拟 机 ， 不 管 是 VMWare、HyperV、XEN， 还 是 KVM ， 都 有 一 个 问题 ， 就 是 虚拟 机 的 时 钟 会 走 的 不 精确 ， 因 为 虚拟 机 的 时 钟 是 虚拟 出 来 的 ， 不 像 
物理 机 ， 时 钟 可 以 从 主板 上 的 计时 器 获取 数据 ， 所 以 ， 如 果 是 Linux 系 统 ， 一 般 都 要 配置 tsc 这 样 的 半 虚 拟 化 时 钟 ， 如 果 是 Windows 系 统 ， 一 般 都 要 配置 usepmtimer 这 个 参数 ， 并 且 建 议 所 有 的 虚拟 机 都 设 
置 ntp 时 间 服 务 器 ， 以 保证 虚拟 机 的 走势 准确 。 


关于 CPUO 压 力 大 时 对 虚拟 机 时 钟 的 影响 ， 在 虚拟 机 的 使 用 中 ， 当 虚拟 机 的 CPU0 压 力 持 续 很 大 的 时 候 ， 也 会 对 虚拟 机 的 时 间 也 会 产生 走时 不 准 的 情况 ， 所 以 ， 建 议 在 生产 环境 ， 虚拟 机 一 定 要 设置 ntp。 

















@pae 是 为 了 保证 windows 200332 位 系统 能 能 够 识别 更 大 的 内 存 ， 如 图 22-3 所 示 。 











E boot. ini - 记事 本 
TFE AmE ELO SEU 大助 H) 


terprise" /noexecute-optout /Fastdetect //usepntiner(/pae) 


a. 一 一 ia, — 











22-3 windows2003 系 统 的 boot.ini 设 置 














后 来 ， 笔 者 又 在 不 同 的 虚拟 化 引擎 上 ， 如 VMWare、hyperV， 甚 至 是 物理 机 上 做 了 对 比 测试 ， 发 现 只 要 上 述 3 个 条 件 具 备 ， 肯 定 会 触发 这 个 现象 ;然后 又 在 Windows Server 2008 R2 上 做 了 对 比 测 
试 ， 发 现 现象 是 一 样 的 ， 所 以 ， 这 个 问题 应 该 是 Windows 系 统 的 一 个 bug。 





3. 处 理 方法 
































由 于 当时 虚拟 机 的 内 存 并 没有 大 于 4G， 所 以 ， 去 掉 了 pae 这 个 参数 。 另 外 ， 游 戏 开发 在 后 续 的 服务 器 程序 不 再 使 用 QueryPerformanceFrequency() 这 个 函数 ， 采 用 其 他 的 方式 提高 游戏 精度 。 





4. 问 题 处 理 思路 总 结 





这 个 问题 确实 非常 怪异 ， 一 开始 只 是 在 怀疑 虚拟 机 ， 经 过 大 量 的 对 比 测试 ， 才 真正 的 把 问题 搞 清楚 ， 所 以 ， 在 虚拟 化 实施 过 程 中 ， 碰 到 问题 ， 需 要 认真 细致 的 排查 ， 不 能 轻易 地 下 结论 ， 尽 量 和 业务 程 
序 多 沟通 ， 遇 到 问题 不 轻易 放弃 ， 争 取 能 找到 真正 的 原因 。 

















解决 过 程 很 曲折 ， 回 过 头 来 总 结 经 验 ， 对 比 测试 是 一 个 解决 问题 的 法 宝 ， 通 过 对 比 测试 ， 抽 丝 剥 葛 ， 可 以 一 步 一 步 地 找到 问题 。 











第 22 章 ”生产 环境 问题 案例 与 分 析 


22.1 游戏 在 虚拟 机 上 非常 慢 的 案例 


本 章 介 绍 一 个 在 虚拟 机 上 非常 奇怪 的 问题 案例 ， 当 时 花 了 很 长 时 间 才 找到 原因 ， 这 个 问题 的 解决 过 程 ， 对 解决 类 似 问 题 的 思路 方法 ， 有 借鉴 意义 。 





1. 现 象 


2009 年 的 时 候 ， 在 虚拟 化 平台 下 载 了 一 款 游戏 ， 当 时 ， 宿 主机 操作 系统 是 CentOS 5.564 位 版 本 ， 虚 拟 机 操作 系统 版 本 是 Windows Server 2003 中 文 企业 版 。 到 2010 年 底 的 时 候 ，CentOS 6.0 发 
布 ，CentOS 6.0 在 虚拟 化 方面 添加 了 许多 新 的 功能 ， 所 以 ， 计 划 将 这 款 游戏 逐步 迁移 到 CentOS 6.0 上 面 。 























在 迁移 的 过 程 中 ， 出 现 一 个 非常 奇怪 的 现象 ， 就 是 这 款 游戏 的 服务 器 端 在 虚拟 机 上 特别 慢 ， 在 CentOS 5.5 的 宿主 机 上 ， 游 戏 服务 器 端 程序 启动 需要 2 分 钟 ， 在 CentOS 6.0 的 宿主 机 上 ， 游 戏 服务 器 服务 
器 端 程序 启动 需要 10 多 分 钟 ， 并 且 即 使 勉强 启动 成 功 ， 用 客户 端 连 上 来 ， 也 是 非常 慢 ， 根 本 不 能 进行 游戏 。 




















2. 原 因 查找 过 程 


























经 过 和 游戏 开发 合作 ， 很 快 将 问题 定位 到 一 个 游戏 开发 中 使 用 的 函数 上 ， 游 戏 中 用 到 一 个 系统 函数 ， 即 QueryPerformanceFrequency () 。 

















(1) QueryPerformanceFrequency () 基本 介绍 
类 型 : Win32API, 


原型 : BOOL QueryPerformanceFrequency (LARGE INTEGER*lpFrequency) 。 








作用 : 返回 硬件 支持 的 高 精度 计数 器 的 频率 。 











返回 值 : 若 为 非 零 ， 硬 件 支持 高 精度 计数 器 ; 若 为 零 ， 硬 件 不 支持 ， 读 取 失 败 。 





(2) QueryPerformanceFrequency () 技术 特点 


供 WIN9X 使 用 的 高 精度 定时 器 : QueryPerformanceFrequency () flIQueryPerformanceCounter () ， 要 求 计算 机 从 硬件 上 支持 高 精度 定时 器 ， 就 是 得 到 很 高 的 CPU 的 精度 。 











游戏 开发 写 了 一 个 程序 ， 专 门 调用 这 个 函数 做 循环 ， 输 入 的 参数 是 循环 的 次 数 ， 在 CentOS 5.5 和 CentOS 6.0 上 的 虚拟 机 ， 分 别 循环 测试 10000 次 ， 可 以 看 到 结果 相差 奖金 200 倍 。 在 CentOS 6 的 宿主 机 
上 的 虚拟 机 测试 下 来 ， 在 这 个 函数 上 面 耗 时 很 长 ， 导 致 整个 CPU 的 效率 很 低 。 
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图 22-1 CentOS 5.5 宿 主机 上 虚拟 机 函数 10000 次 耗 时 
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图 22-2 CentOS 6.0 宿 主机 上 虚拟 机 函数 10000 次 耗 时 





因此 ， 首 先 怀疑 的 是 新 版 的 KVM 对 QueryPerformanceFrequency () 这 个 函数 的 支持 是 不 是 有 缺陷 ， 导 致 出 现 这 样 的 问题 ， 但 是 从 理论 上 讲 ， 可 能 性 似乎 不 大 。 








后 来 ， 又 花 了 两 周 时 间 专 门 做 对 比 测试 ， 终 于 找到 了 原因 。 首 先 ， 将 CentOS 6 上 的 虚拟 机 复制 到 CentOS 5.5 上 ， 发 现 问题 会 浮现 ; 然后 ， 将 CentOS 5.5 上 的 虚拟 机 复制 到 CentOS 上 ， 发 现 不 会 出 现 
问题 。 

















到 这 一 步 ， 怀 疑 是 不 是 CentOS 6 这 个 版 本 上 的 虚拟 机 镜像 制作 有 问题 。 于 是 ， 重 新 安装 了 一 个 纯净 版 的 Windows 系 统 ， 重 新 测试 ， 发 现 不 会 出 现 问题 ， 现 在 ， 问 题 应 该 可 以 定位 到 镜像 配置 上 了 。 

















然后 ， 又 对 镜像 配置 进行 了 详细 的 检查 ， 对 每 项 配置 进行 了 关闭 及 开启 对 比 测试 ， 终 于 找到 了 原因 ， 在 同时 具备 以 下 3 个 条 件 时 ， 会 触发 问题 而 导致 游戏 很 慢 : 


























Qc: \boot.ini 里 面 的 两 个 参数 usepmtimer、pae 同 时 添加 、 使 用 QueryPerformanceFrequency () 函数 。 











@usepmtimer 是 为 了 保证 虚拟 机 走时 准确 ， 所 有 的 虚拟 机 ， 不 管 是 VMWare、HyperV、XEN， 还 是 KVM ， 都 有 一 个 问题 ， 就 是 虚拟 机 的 时 钟 会 走 的 不 精确 ， 因 为 虚拟 机 的 时 钟 是 虚拟 出 来 的 ， 不 像 
物理 机 ， 时 钟 可 以 从 主板 上 的 计时 器 获取 数据 ， 所 以 ， 如 果 是 Linux 系 统 ， 一 般 都 要 配置 tsc 这 样 的 半 虚 拟 化 时 钟 ， 如 果 是 Windows 系 统 ， 一 般 都 要 配置 usepmtimer 这 个 参数 ， 并 且 建 议 所 有 的 虚拟 机 都 设 
置 ntp 时 间 服 务 器 ， 以 保证 虚拟 机 的 走势 准确 。 


关于 CPUO 压 力 大 时 对 虚拟 机 时 钟 的 影响 ， 在 虚拟 机 的 使 用 中 ， 当 虚拟 机 的 CPU0 压 力 持 续 很 大 的 时 候 ， 也 会 对 虚拟 机 的 时 间 也 会 产生 走时 不 准 的 情况 ， 所 以 ， 建 议 在 生产 环境 ， 虚拟 机 一 定 要 设置 ntp。 

















@pae 是 为 了 保证 windows 200332 位 系统 能 能 够 识别 更 大 的 内 存 ， 如 图 22-3 所 示 。 











|. boot. ini 一 记事 本 
TFE AmE ELO 查看 人 大助 出) 


terprise" /noexecute-optout /Fastdetect //usepntiner(/pae) 


a. 一 一 ia, — 














22-3 windows2003 系 统 的 boot.ini 设 置 








后 来 ， 笔 者 又 在 不 同 的 虚拟 化 引擎 上 ， 如 VMWare、hyperV， 甚 至 是 物理 机 上 做 了 对 比 测试 ， 发 现 只 要 上 述 3 个 条 件 具 备 ， 肯 定 会 触发 这 个 现象 ;然后 又 在 Windows Server 2008 R2 上 做 了 对 比 测 
试 ， 发 现 现象 是 一 样 的 ， 所 以 ， 这 个 问题 应 该 是 Windows 系 统 的 一 个 bug。 


3. 处 理 方法 
































由 于 当时 虚拟 机 的 内 存 并 没有 大 于 4G， 所 以 ， 去 掉 了 pae 这 个 参数 。 另 外 ， 游 戏 开发 在 后 续 的 服务 器 程序 不 再 使 用 QueryPerformanceFrequency() 这 个 函数 ， 采 用 其 他 的 方式 提高 游戏 精度 。 





4. 问 题 处 理 思路 总 结 





这 个 问题 确实 非常 怪异 ， 一 开始 只 是 在 怀疑 虚拟 机 ， 经 过 大 量 的 对 比 测试 ， 才 真正 的 把 问题 搞 清楚 ， 所 以 ， 在 虚拟 化 实施 过 程 中 ， 磁 到 问题 ， 需 要 认真 细致 的 排查 ， 不 能 轻易 地 下 结论 ， 尽 量 和 业务 程 
序 多 沟通 ， 遇 到 | 问题 不 轻易 放弃 ， 争 取 能 找到 真正 的 原因 。 























解决 过 程 很 曲折 ， 回 过 头 来 总 结 经 验 ， 对 比 测试 是 一 个 解决 问题 的 法 宝 ， 通 过 对 比 测试 ， 抽 丝 剥 昔 ， 可 以 一 步 一 步 地 找到 问题 。 


22.2 ”虚拟 机 流量 过 高 引起 网 络 风暴 的 案例 一 























单线 双 IP 是 一 种 典型 的 多 线 机 房 使 用 方式 ， 本 章 介绍 一 个 在 单线 双 IP 机 房 实施 虚拟 化 的 时 候 ， 碰 到 的 一 个 惨痛 案例 ， 希 望 以 后 在 单线 双 IP 机 房 实施 虚拟 化 的 读者 能 避免 出 现 类 似 的 问题 。 





1. 现 象 











在 单线 多 IP 的 机 房 ， 为 了 测试 虚拟 机 之 间 的 网 络 性 能 ， 做 了 两 台 宿 主机 上 两 台 虚拟 机 之 间 的 网 络 压 力 测试 ， 两 台 宿 主机 在 同一 交换 机 下 面 ， 测 试 开始 10 分 钟 后 ， 整 个 机 房 机 房 网 络 出 现 网络 风 暴 ， 机 房 
出 口 被 堵 死 ， 机 房 所 有 服务 器 对 外 中 断 服务 ， 然 后 紧急 将 两 台 宿 主机 关机 ， 机 房 网 络 恢复 正常 。 














出 现 问题 的 环境 如 下 : 

(1) 硬件 环境 

“ 服务 器 品牌 : 不 知名 品牌 。 

- CPU: E5-2640*2。 

“硬盘: 600GB*1。 

“内存 : 16GB。 

(2) 软件 环境 

“ 宿主 机 : CentOS 6.464 位 ， 内 核 版 本 2.6.32-431.17.1.el6.x86_64， 两 台 。 

“ EWWL: Ubantu 12.04，64 位 服务 器 版 ， 内 核 版 本 3.10， 每 台 宿 主机 虚拟 机 一 台 。 
“ 软件 工具 : Netperf。 


(3) 网 络 环境 











机 房 网 络 为 单线 双 IP， 一 个 运营 商 甲 IP， 另 一 个 运营 商 乙 IP， 未 作 VLAN 划 分 ， 两 个 网 段 在 同一 个 VLAN 内 部 ， 两 台 宿 主机 在 同一 交换 机 下 面 ， 带 宽 1000M。 








2. 问 题 再 现 与 原因 查找 

















为 了 测试 到 底 是 什么 原因 引起 这 样 的 现象 ， 在 测试 环境 搭建 了 一 个 环境 ， 对 各 种 网 络 结构 分 别 做 了 测试 ， 测 试 环境 如 下 : 
(1) 硬件 环境 

- 服务 器 品牌 : HP DL380G5。 

- CPU: E5430。 

“内存: 16GB。 

“硬盘: 146GB*1。 


(2) 软件 环境 


“ 宿主 机 : CentOS 6.564 位 ， 内 核 版 本 2.6.32-431.20.3.el6.x86_64， 两 台 。 
“虚拟 机 : Ubuntu12.04， 内 核 版 本 3.10， 两 台 。 


(3) 网 络 环境 


Qu 


为 什么 要 进行 如 下 8 种 网 络 环境 的 测试 呢 ? 主要 是 为 了 彻底 测试 不 同 的 子 网 及 桥 组 合 配置 下 ， 是 否 会 引起 相同 的 网 络 风暴 现象 。 











@ 网 络 结构 图 一 : 宿主 机 使 





单 网 卡 单 iP， 创 建 桥 br0， 











eth0 — — —— br0 


宿主 机 1 


虚拟 机 1 —- ethl 


— y 
ethO 


图 22-4 


宿主 机 网 络 配置 ， 宿 主机 单 网 卡 单 |P， 命 令 如 下 : 





虚拟 机 配置 双 网 卡 (都 桥接 到 br0) ， 如 图 22-4 所 示 。 


br0 <«———— eth0 EE 


入 主机 2 


ethl 


A 


ethü ”< 一 一 虚拟 机 2 


宿主 机 单 网 卡 单 桥 ， 虚 拟 机 双 网 卡 桥 br0 





ifconfig 
bro Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:1795957 errors:0 dropped:0 overruns:0 frame:0 

TX packets:6229 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 

RX bytes:133290840 (127.1 MiB) TX bytes:438593 (428.3 KiB) 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 

RX packets:1863264 errors:0 dropped:0 overruns:0 frame:0 

TX packets:6225 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:1000 
RX bytes:171318323 (163.3 MiB) 


eth0 


TX bytes:504379 (492.5 KiB) 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 双 网 卡 双 IP， 虚 拟 机 分 配 两 块 网 卡 ， 全 部 桥 到 br0 上 ， 命 令 如 下 : 





virsh # dumpxml 1 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


«interface type-'bridge'» 

«mac address-'52:54:00:99:fb:af'/» 

«source bridge-'br0'/» 

«target dev-'vnet0'/» 

«model type-'virtio'/» 

«alias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
«interface type-'bridge'» 

«mac address-'52:54:00:48:c2:86'/» 

<source bridge-'br0'/» 

«target dev-'vnetl'/» 

«model type-'virtio'/» 

«alias name-'netl'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/interface» 





@ 网 络 结构 图 二 : 宿主 机 配置 单 网 卡 双 IP 及 两 个 桥 br0、br0: 1， 虚 拟 机 配置 双 网 卡 (eth0 桥 接 到 br0; eth1 桥 接 到 br0: 1) ， 如 








网 


22-5 所 示 。 











ethü — — — —- br 


宿主 机 1 eth0:1 —> br0:1 
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22-5 ”宿主 机 单 网 卡 、 网 桥 、 子 网 桥 ， 虚 拟 机 双 网 卡 桥 br0，br0: 1 








网 








宿主 机 网 络 配置 ， 宿 主机 单 网 卡 双 IP， 命 令 如 下 : 


fH 
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2 





ifconfig 
brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
RX packets:1796577 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6338 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:133340838 (127.1 MiB) TX bytes:455527 (444.8 KiB) 
br0:1 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 双 网 卡 双 IP， 虚 拟 机 分 配 两 块 网 卡 ， 分 别 桥 到 br0，br0: 1 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
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«interface type-'bridge'» 

«mac address-'52:54:00:99:fb:af'/» 

<source bridge-'br0'/» 

«target dev-'vnet0'/» 

«model type-'virtio'/» 

«alias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 





«/interface» 
«interface type-'bridge'» 
«mac address-'52:54:00:48:c2:86'/» 


«source bridge-'br0:1'/» 

«target dev-'vnetl'/» 

«model type-'virtio'/» 

«alias name-'netl'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/interface» 














@ 网 络 结构 图 三 : 宿主 机 配置 单 网 卡 双 IP 及 桥 br0、br0: 1， 虚 拟 机 配置 双 网 卡 (都 桥接 到 br0) ， 如 图 22-6 所 示 。 








ethü ——— ——» br0 






eth0:1 —> br0:1 


虚拟 机 1 —- ethl 
— y 


eth0 


图 22-6 ”宿主 机 单 网卡 、 网 桥 、 


宿主 机 网 络 配置 ， 宿 主机 单 网 卡 双 IP， 命 令 如 下 : 


brO < eth0 


br0:1 < 一 eth0:1 <- 和 宾主 机 2 


ethl 


s 
ethü ”< 一 一 虚拟 机 2 


子 网 桥 ， 虚 拟 机 双 网 卡 桥 br0 





ifconfig 
brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 

RX packets:1796577 errors:0 dropped:0 overruns:0 frame:0 

TX packets:6338 errors:0 dropped:0 overruns:0 carrier:0 

collisions:0 txqueuelen:0 

RX bytes:133340838 (127.1 MiB) TX bytes:455527 (444.8 KiB) 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/ 


br0:1 


15347/0EBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 双 网 卡 双 IP， 虚 拟 机 分 配 两 块 网 卡 ， 都 桥 到 br0 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/ 
«interface type-'bridge'» 

«mac address-'52:54:00:99:fb:af'/» 

<source bridge-'br0'/» 

«target dev-'vnet0'/» 

«model type-'virtio'/» 

«alias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 





«/interface» 
«interface type-'bridge'» 
«mac address-'52:54:00:48:c2:86'/» 


«source bridge-'br0:1'/» 

«target dev-'vnetl'/» 

«model type-'virtio'/» 

«alias name-'netl'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/interface» 





15347/0EBPS/Text/... 





@@ 网 络 结构 图 四 : 宿主 机 配置 单 网 卡 双 IP 及 桥 br0、br0: 1， 虚 拟 机 配置 单 网 卡 (桥接 到 br0) ， 如 








图 22-7 所 示 。 





ethü — — —— br 


TEENUI eth0:1 一 > brO: 1 


br0 < eth0 n 
虚拟 机 1 br0:1 < 一 eth0:1<- 1] EHL 


eth0 


ethü ”< 一 一 虚拟 机 2 


图 22-7 ”宿主 机 单 网 卡 、 网 桥 、 子 网 桥 ， 虚 拟 机 单 网 卡 桥 br0 


宿主 机 网 络 配置 ， 宿 主机 单 网 卡 双 IP， 命 令 如 下 : 





ifconfig 
brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
RX packets:1796577 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6338 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:133340838 (127.1 MiB) TX bytes:455527 (444.8 KiB) 
br0:1 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 单 网 卡 单 |Pp， 桥 到 br0 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
«interface type-'bridge'» 
«mac address-'52:54:00:99:fb:af'/» 
«source bridge-'br0'/» 
«target dev-'vnet0'/» 
«model type-'virtio'/» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





加 网 络 结构 图 五 : 宿主 机 配置 单 网 卡 多 IP 及 桥 br0、br0: 1. bro: 2， 虚 拟 机 配置 单 网 卡 (桥接 到 br0) ， 如 图 22-8 所 示 。 








ethü — > br0 


18 EHLI eth0:1 —> br0:1 


eth0:2 一 > br0:2 


br0 | ——————— eth0 


br0: 1 4— ethO0: | < 一 
br0:2< 一 eth0:2 


虚拟 机 1 





eth0 


eth0 ”< 一 一 虚拟 机 2 


图 22-8 ”宿主 机 单 网 卡 、 网 桥 、 多 子 网 桥 ， 虚 拟 机 单 网 卡 桥 br0 


宿主 机 网 络 配 置 ， 宿 主机 单 网 卡 多 IP， 命 令 如 下 : 





ifconfig 
brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:1796943 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6408 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:133369641 (127.1 MiB) TX bytes:465203 (454.2 KiB) 
br0:1 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
br0:2 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.2.150  Bcast:192.168.2.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 单 网 卡 单 |P， 桥 到 br0 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
«interface type-'bridge'» 5 
«mac address-'52:54:00:99:fb:af'/» 
«source bridge-'br0'/» 
«target dev-'vnet0'/» 
«model type-'virtio'/» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 








@@ 网 络 结构 图 六 : 宿 








机 配置 单 网 卡 多 1P 及 桥 br0、br0: 1、br0: 2， 虚 拟 机 配置 单 网 卡 (桥接 到 br0: 2) ， 如 图 22-9 所 示 。 





~ 








ethü —————» br 
TEENUI eth0:1 一 > brO: 1 


eth0:2 一 > br0:2 


br0 < 一 一 eth0 - 


br0:1< 一 eth0:1 < 一 7 EHL 


M l 
虚拟 机 br0:2< eth0:2 


eth0 


ethü ”< 一 一 虚拟 机 2 


22-9 ”宿主 机 单 网 卡 、 网 桥 、 多 子 网 桥 ， 虚 拟 机 单 网 卡 桥 子 网 卡 br0: 2 








网 








宿主 机 网 络 配置 ， 宿 主机 单 网 卡 多 IP， 命 令 如 下 : 





ifconfig 
brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:1796943 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6408 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:133369641 (127.1 MiB) TX bytes:465203 (454.2 KiB) 
br0:1 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
br0:2 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
inet addr:192.168.2.150  Bcast:192.168.2.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:l 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 单 网 卡 单 |P， 桥 到 br0: 2 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
«interface type-'bridge'» 
«mac address-'52:54:00:99:fb:af'/» 
«source bridge-'br0:2'/» 
«target dev-'vnet0'/» 
«model type-'virtio'/» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 














@ 网 络 结构 图 七 : 宿主 机 配置 单 网 卡 多 IP 及 桥 br0、br0: 1. brO: 2， 虚 拟 机 配置 双 网 卡 (eth0 桥 接 到 br0，eth1 桥 接 到 br0: 2) ， 如 图 22-10 所 示 。 











答 主 机 1 eth0:1 一 > br0:1 


eth0 一 > br0 






eth0:2 —> br0:2 


brO < ——— eth0 






虚拟 机 1 ->  ethl 


eth0 


eth0 


图 22-10 ”宿主 机 单 网 卡 、 网 桥 、 多 子 网 桥 ， 虚 拟 机 双 网 卡 桥 br0、 子 网 卡 br0: 2 


宿主 机 网 络 配置 ， 宿 主机 单 网 卡 多 IP， 命 令 如 下 : 


br0: 1 4— eth0: 1 < 一 
br0:2<— eth0:2 


ethl 


< 一 一 虚拟 机 2 





ifconfig 
brO 


br0:1 


br0:2 


Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:1796943 errors:0 dropped:0 overruns:0 frame:0 

TX packets:6408 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 

RX bytes:133369641 (127.1 MiB) TX bytes:465203 (454.2 KiB) 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.1.150 Bcast:192.168.1.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.2.150 Bcast:192.168.2.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





虚拟 机 网 络 配置 ， 虚 拟 机 双 网 卡 双 IP， 第 一 个 块 网 卡 桥 到 br0 上 ， 第 二 块 网 卡 桥 到 br0: 2 上 ， 命 令 如 下 : 





virsh # 


dumpxml 1 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


«interfa 


«/in 
«inti 


«/in 


ce type-'bridge'» 

«mac address-'52:54:00:99:fb:af'/» 

«source bridge-'br0'/» 

«target dev-'vnet0'/» 

«model type-'virtio'/» 

«alias name-'net0'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
terface» 

erface type-'bridge'» 

«mac address-'52:54:00:48:c2:86'/» 

<source bridge-'br0:2'/» 

«target dev-'vnetl'/» 

«model type-'virtio'/» 

«alias name-'netl'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
terface» 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





@@ 网 络 结构 图 八 : 宿主 机 配置 双 网 卡 双 IP 及 桥 br0、br1， 虚 拟 机 配置 双 网 卡 (eth0 桥 接 到 br0，eth1 桥 接 到 br1) ， 如 图 22-11 所 示 。 

















宿主 机 网 络 配置 ， 宿 主机 单 网 卡 双 IP， 命 令 如 下 : 





ifconfig 
brO 


brl 


eth0 


ethl 


Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

inet addr:192.168.0.150 Bcast:192.168.0.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:1796943 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6408 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 

RX bytes:133369641 (127.1 MiB) TX bytes:465203 (454.2 KiB) 
Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6E 

inet addr:172.18.254.150 Bcast:172.18.254.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:0 errors:0 dropped:0 overruns:0 frame:0 

TX packets:4 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 

RX bytes:0 (0.0 b) TX bytes:168 (168.0 b) 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:1864275 errors:0 dropped:0 overruns:0 frame:0 
TX packets:6403 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:1000 

RX bytes:171416918 (163.4 MiB) TX bytes:531595 (519.1 KiB) 
Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6E 

UP BROADCAST MULTICAST MTU:1500 Metric:l 


RX packets:0 errors:0 dropped:0 overruns:0 frame:0 

TX packets:0 errors:0 dropped:0 overruns:0 carrier:0 

collisions:0 txqueuelen:1000 

RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... B 





eth0 ——— —— br0 


EEPL ethl — brl 


br0 «— — — eth0 


brl thl a E#L2 
虚拟 机 1 > ethl E 


— 


eth0 


ethl 


hs o 
ethü ”< 一 一 虚拟 机 2 


图 22-11 ”宿主 机 双 网 卡 、 双 网 桥 ， 虚 拟 机 双 网 卡 桥 br0、brl 














虚拟 机 网 络 配 置 ， 虚 拟 机 多 网 卡 双 IP， 第 一 个 块 网 卡 桥 到 br0 上 ， 第 二 块 网 卡 桥 到 br1 上 ， 命 令 如 下 : 





virsh # dumpxml 1 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
<interface type-'bridge'» 
«mac address-'52:54:00:99:fb:af'/» 
«source bridge-'br0'/» 
«target dev-'vnet0'/» 
«model type-'virtio'/» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 
«/interface» 
«interface type-'bridge'» 
«mac address-'52:54:00:48:c2:86'/» 
«source bridge-'brl'/» 
«target dev-'vnetl'/» 
«model type-'virtio'/» 
«alias name-'netl'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/interface» 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





@ 网 络 结构 图 九 : 宿主 机 配置 单 网 卡 多 VLAN 及 桥 br0、br0.100、br0.200， 虚 拟 机 配置 双 网 卡 (eth0 桥 接 到 br0.100，eth1 桥 接 到 br0.200) ， 如 图 22-12 所 示 。 








eth0 ———————» br0 
TE EHLI 


eth0.200 br0.200 


虚拟 机 1 一 ethl 
= 


eth0 


图 22-12 


宿主 机 网 络 设置 ， 宿 主机 单 网 卡 多 VLAN， 命 令 如 下 : 





eth0.100 ————» br0.100 


brO «—— ethO 


br0.100 < 一 eth0.100 ”宿主 机 2 


br0.200 <— eth0.200 


ethl 


A 
eth0 < 一 一 虚拟 机 2 


宿主 机 单 网 卡 多 vlan、 网 桥 、 多 子 网 桥 ， 虚 拟 机 双 网 卡 桥 子 van br0.100. br0.200 





ifconfig 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


brO Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:4 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 
RX bytes:0 (0.0 b) TX bytes:168 (168.0 b) 

br1.200 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 


inet addr:172.18.200.150 Bcast:172.18.200.255 Mask:255.255.255.0 
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 

RX packets:0 errors:0 dropped:0 overruns:0 frame:0 

TX packets:8 errors:0 dropped:0 overruns:0 carrier:0 

collisions:0 txqueuelen:0 

RX bytes:0 (0.0 b) TX bytes:336 (336.0 b) 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


eth0 Link encap:Ethernet  HWaddr 00:21:5E:09:E7:6C 
UP BROADCAST MULTICAST MTU:1500 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 
TX packets:0 errors:0 dropped:0 overruns:0 
collisions:0 txqueuelen:1000 

RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 
Link encap:Ethernet  HWaddr 00:21:5E:09:E7: 
UP BROADCAST MULTICAST MTU:1500 Metric:1 
RX packets:0 errors:0 dropped:0 overruns:0 
TX packets:0 errors:0 dropped:0 overruns:0 
collisions:0 txqueuelen:0 

RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 

Link encap:Ethernet  HWaddr 00:21:5E:09:E7: 
UP BROADCAST MULTICAST MTU:1500 Metric:l 
RX packets:0 errors:0 dropped:0 overruns:0 
TX packets:0 errors:0 dropped:0 overruns:0 
collisions:0 txqueuelen:0 

RX bytes:0 (0.0 b) TX bytes:0 (0.0 b) 


frame:0 
carrier:0Ü 


eth0.100 6c 


frame:0 


carrier:0Ü 


eth0.200 éc 


frame:0 
carrier:0Ü 





虚拟 机 网 络 配置 ， 虚 拟 机 双 网 卡 双 IP， 第 一 个 块 网 卡 桥 到 br0.100 上 ， 第 二 块 网 卡 桥 到 br0.200 上 ， 命 令 如 下 : 





Virsh # dumpxml 1 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


«interface type-'bridge'» 
«mac address-'52:54:00:99:fb:af'/» 
<source bridge-'br0.100'/» 
«target dev-'vnet0'/» 
«model type-'virtio'/» 
«alias name-'net0'/» 
«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x03' function-'0x0'/» 





«/interface» 
«interface type-'bridge'» 
«mac address-'52:54:00:48:c2:86'/» 


«source bridge-'br0.200'/» 

«target dev-'vnetl'/» 

«model type-'virtio'/» 

«alias name-'netl'/» 

«address type-'pci' domain-'0x0000' bus-'0x00' slot-'0x07' function-'0x0'/» 
«/interface» 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





(4) 测试 内 容 、 工 具 及 方法 


测试 目的 : 测试 网 络 结构 的 合理 性 ， 测 试 过 程 中 是 否 会 引起 网 络 中 断 ， 为 以 后 同样 环境 下 虚拟 机 的 使 














例 ( 见 表 22-1) : 


表 22-1 


多 网 络 结 





用 积累 经 验 。 


构 测 试用 例 


m ë H 


TCP_STREAM 测试 TCP 吞吐 








测试 工具 : 
.netperf-2.5.0。 
:iperf-2.0.5。 
测试 方式 : 
虚拟 机 到 虚拟 机 之 间 打 压力 。 
Netperf 测 试 : 


在 虚拟 机 1 上 启动 netserver， 命 令 如 下 : 


netserver 








在 虚拟 机 2 上 输入 测试 命令 (ethO—ethO) ， 显 示 如 下 : 





netperf -c -H 192.168.200.207 -1 1800 -t TCP STREAM -- -M 1048576 -m 1048576 





在 虚拟 机 2 上 输入 测试 命令 (eth1 一 eth1) ， 显 示 如 下 : 





netperf -c -H 192.168. 200.207 -1 1800 -t TCP STREAM -- -M 1048576 -m 1048576 





lperf 测 斌 : 


在 虚拟 机 1 上 启动 server 模 式 ， 命 令 如 下 : 





iperf -s -w 1M 





在 虚拟 机 2 上 以 client 模 式 启动 ， 输 入 测试 命令 ， 显 示 如 下 : 





iperf -c 192.168.200.207 -w 1M -t 900 





(5) 测试 结论 


经 过 测试 ， 结 论 如 下 : 





@ 如 表 22-2 所 示 的 网 络 结构 为 四 、 五 、 六 ， 并 且 通 过 端口 映射 进行 ， 两 台 虚 拟 机 之 间 进 行 网 络 压力 测试 会 引起 网 络 中 断 。 











@ 所 有 网 络 结构 ， 如 果 不 进行 端口 映射 ， 则 网 络 性 能 测试 不 会 引起 网 络 中 断 。 


表 22-2 各 种 网 络 架构 是 否 引起 网 络 风暴 结果 


网 络 结构 EIL 

同 络 结构 一 EIE: 部 标 接 到 bro 5 

网 络 结构 二 eto 桥接 到 WO exl 标 接 到 br0.1 —— = 

网 络 结构 三 者 桥 接 到 bro = 

网 络 结构 四 " iia bro b 是 
桥接 到 br0 





2 


网 络 结构 


www MEER | WE | o E 
ana MAEL IP En == bro 
- — E br0:2 

网 络 结构 六 


Di 


EL 


IM 


DIE 一 wa — — — — 58 
"e | ERO eth0 um 到 br0  eth1 桥接 到 br0:2 
网 络 结构 八 eth0 桥接 到 bro ethl 桥接 到 bri 
i | eth0 桥接 到 br0.100  ethl 桥接 到 br0.200 
单 网 卡 多 VLAN etho 桥接 到 br0.100 — eth1 桥接 到 br0.200 





地 址 ， 交 换 机 


网 络 正 常 现 象 : 


网 络 故障 现象 : 


只 要 在 宿主 机 上 没 做 端口 映射 ， 在 所 有 的 网 络 结构 下 进行 虚拟 机 之 间 的 网 络 性 能 测试 ， 都 不 会 引起 网 络 中 断 。 


在 网 络 结构 四 、 五 、 


(6) 抓 包 及 网 络 层面 的 分 析 


六 情况 下 ， 若 宿主 机 上 设置 端 [ 








映射 ， 虚拟 机 之 间 的 网 络 性 能 测试 会 引起 网 络 中 断 。 

















抓 包 分 析 以 及 查看 交换 机 的 CAM 表 信息 发 现 ， 在 5 分 钟 后 ， 交 换 机 的 CAM 表 中 没有 测试 目标 服务 器 MAC 地 址 表 项 。 根 据 交换 机 的 工作 机 制 ， 当 收 到 一 个 数据 包 ， 若 在 CAM 表 中 找 不 到 包 中 的 目标 MAC 


如 图 22-13 所 示 ， 在 测试 过 程 中 ， 为 什么 在 5 分 钟 后 交换 机 CAM 表 中 就 没有 测试 目标 服务 器 的 MAC 地 址 表 项 呢 ? 
标 服务 器 一 直 没 有 回 包 。 交 换 机 是 根据 数据 包 的 源 MAC 地 址 来 更 新 CAM 表 
会 将 CAM 中 对 应 的 MAC 表 项 清除 掉 。 因 








风暴 。 


由 。 


3. 问 题 处 理 方法 


在 单线 多 IP 机 房 ， 宿 主机 只 配置 一 个 IP、 一 个 网 桥 ， 虚 拟 机 


会 做 未 知 让 


























为 宿主 机 的 IP 只 




















ZNIE: 


g 


im i e e LIBET BRI 


192.168.200.241 


M 192.168.200.241 


192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 


d 192.168.200.241 


192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 
192.168.200.241 


M 192.168.200.241 


192.168.200.241 


4 .问题 处 理 思路 总 结 


播 处 理 ， 工 作 机 制 等 同 广播 ， 会 向 交换 机 所 有 端口 





转发 这 个 数据 包 ， 当 另外 的 交换 机 收 到 这 个 : 





数据 包 后 ， 也 会 做 广播 处 理 ， 从 而 影响 整个 机 房 网 络 ， 直 至 机 房 网 络 完全 中 断 。 


经 抓 包 发 现 ， 在 测试 的 过 程 中 ， 只 有 测试 源 服务 器 到 测试 目标 服务 器 的 数据 包 ， 测 试 目 


的 ， 在 “学 到 ”一 个 MAC 地 址 并 放 在 CAM 表 后 ， 老 化 时 间 默 认 是 5 分 钟 ， 如 果 在 5 分 钟 内 没 再 收 到 同样 源 MAC 地 址 的 包 ， 交 换 机 





为 目标 服务 器 一 直 未 回 包 ， 对 应 的 交换 机 CAM 表 一 直 不 能 





























配置 两 个 网 卡 ， 都 桥 到 宿主 机 的 单 网 桥 上 ， 虚 拟 机 一 个 网 卡 配置 运营 商 日 
于 管理 ， 所 以 ， 一 个 IP 就 足够 了 ; 因为 主要 的 生产 流量 都 是 走 虚 拟 机 ， 所 以 ， 虚 拟 机 配置 两 块 网 卡 ， 














192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 
192.168.200.207 


1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 
1518 


0.000000 
0.000041 
0.000266 
0.000309 
0.000477 
0.000634 
0.000672 
0.000835 
0.000989 
0.001072 
0.001218 
0.001374 
0.001417 
0.001585 
0.001682 
0.001764 
0.001922 
0.002044 
0.002174 
0.002256 


图 22-13 ”流量 过 高 引起 网 络 风暴 抓 包 


分 别 绑 定 两 个 : 





| 摘要 
Src=57249, Dst=50370, y TIT 
$rc-57249,D3t-50370, . 
Src-57249,D3t-50370, . 
Src=57249, Dat=50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dst=50370, . 
Src-57249,D3t-50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dat=50370, . 
Src=57249, Dst=50370, . 
Src=57249, Dst=50370, . 


更 新 ，5 分 钟 后 自动 删除 目标 服务 器 在 CAM 中 的 MAC 地 址 表 项 ， 在 测试 5 分 钟 后 ， 导 致 整个 网 络 出 现 广播 


RIP， 另 一 个 网 卡 配置 运营 商 乙 IP， 并 做 到 运营 商 乙 的 IP 段 手工 路 
运营 商 的 IP。 


$-363. 


Src-57249,D3t-50370, .A....,5-363... 


Src-57249,D3t-50370, . 
Src-57249,D3t-50370,. 
Src-57249,D3t-50370, . 
Src-57249,D3t-50370, . 
Src-57249,D3t-50370,. 





这 个 案例 最 大 的 教训 是 不 应 在 生产 环境 做 大 压力 测试 ， 主 要 是 流程 上 的 问题 ， 也 提醒 每 一 个 





个 运 维 ， 严 格 遵守 相关 的 运 维 流程 、 规 范 是 对 自己 最 大 的 保护 。 


问题 的 技术 原 








因 分 析 ， 主 要 是 通过 在 测试 环境 ， 模 拟 出 问题 的 线 上 环境 ， 对 问题 重 现 ， 并 且 进 一 步 测试 了 各 种 网 络 情况 下 ， 是 否 会 出 现 类 似 的 问题 。 
通过 近 两 周 的 测试 ， 发 现在 以 下 条 件 下 会 触发 故障 : 

“ 同 VLAN 多 网 段 配 置 子 网 卡 并 桥接 虚拟 机 。 

“ 菜 个 网 段 做 了 NAT 映 射 。 
:网络 大 流量 压力 接近 线 速 。 

所 以 ， 在 多 线 机 房 的 虚拟 化 实施 中 ， 一 定 要 避免 出 现 类 似 的 问题 。 


本 节 介 绍 的 案例 ， 后 果 非 常 严 





Tti 


, RARAN ENE ANESSEKS SERI, 


22.3 ”虚拟 机 流量 过 高 引起 网 络 风暴 的 案例 二 


笔者 曾经 在 给 一 款 知名 的 RPG (Role-playing game， 角 色 扮 演 游戏 ) 手机 游戏 提供 虚拟 化 支持 期 间 遇 到 问题 ， 印 象 非常 深刻 ， 本 节 分 享 下 ， 希 望 读 者 在 虚拟 化 实施 时 能 有 所 借鉴 。 


1 现象 





一 款 游戏 需要 经 过 CBT (内 部 测试 ) . OBT (公开 测试 ) 等 阶段 的 测试 才能 最 终 上 线 。 当 时 给 此 款 游戏 提供 了 配置 为 两 颗 CPU、4G 内 存 的 虚拟 机 ， 
戏 项 目 组 一 段 时 间 的 测试 没有 发 现 虚 拟 机 性 能 存在 问题 。 代 码 调式 以 及 发 现 的 相关 bug 也 都 修复 完成 ， 讨 论 认为 游戏 已 经 能 够 满足 上 线 前 的 要 求 ， 于 是 ， 提 前 广告 投放 、 流 量 入 口 的 推广 ， 
网 论坛 也 很 活跃 ， 大 家 都 很 期 待 。 








在 生产 环境 的 操作 ， 要 充分 验证 再 操作 ， 切 不 可 想当然 。 下 一 节 再 介绍 一 个 没有 充分 验证 ， 上 线 时 造成 严重 影响 的 案例 。 


因为 RPG 类 手 游 的 压力 主要 是 网 卡 的 发 包 率 ， 经 过 游 








反响 非常 好 ， 官 


开放 时 间 定 于 当日 13 : 30， 实 际 上 在 12 : 30 左 右 已 经 开放 了 少许 玩家 进来 ， 游 戏 运行 稳定 。 随 着 玩家 慢 慢 导 入 ， 到 13 : 30 对 所 有 玩家 全 部 开放 。 这 时 ， 论 坛 、 客 服 接 到 众多 玩家 反馈 无 法 登录 ， 报 错 信 





息 : “该 账号 已 在 其 他 设备 上 登录 ， 不 允许 重复 登录 ” ， 虚 拟 机 无 异常 。 











从 15 : 00 开 始 虚 拟 机 出 现 异 常 ， 表 现 为 很 卡 、 





反应 慢 、 无 法 登录 、 无 法 重启 。 通 过 VNC 的 方式 登录 查看 虚拟 机 有 OOM 的 














志 ， 明 显 为 内 存 不 足 ， 

















自动 kill 掉 了 很 多 其 他 进程 ， 同 时 ， 后 端 运行 虚拟 机 的 


存储 压力 标 升 ，IOPS 突 然 上 升 到 7000 多 ， 已 经 达到 存储 的 极限 ， 非 常 危险 (曾经 遇 到 在 高 I//O 的 情况 下 存储 做 raid5， 损 坏 一 块 磁盘 ， 在 raid5 还 没有 rebuild 完 成 ， 又 坏 了 一 块 磁盘 导致 整个 集群 数据 丢失 的 





情况 ) ， 当 时 存储 的 情况 如 图 22-14。 


Os5th*e — & standard 


18:00 00:00 06:00 : 00:00 06:00 12:00 18:00 00:00 
2014/5/8 2014/5/9 2014/5/10 2014/5/11 2014/5/12 





622-14 存储 IOPS 情 况 


另外 ， 上 线 前 预 估 读 会 比较 多 ， 但 实际 情况 却 是 读 / 写 比例 基本 在 4 : 6 和 5 : 5 之 间 ， 和 预期 严重 不 符 。 





根据 经 验 ， 如 果 MO 延 迟 在 20ms 以 上 是 不 可 接受 的 ， 会 严重 影响 游戏 的 运行 ， 从 图 22-15 中 可 以 看 到 VO 延 迟 基本 都 在 20ms 以 上 。 











虚拟 机 运行 在 虚拟 化 集群 中 ， 具 体 请 参考 第 18 章 有 关 KVM 虚 拟 化 集群 技术 及 应 用 场景 的 介绍 ， 以 下 为 当时 集群 的 环境 。 
(1) 硬件 环境 

“ 服务 器 品牌 : HP C3000 (刀片 服务 器 ， 支 持 8 片 刀片 服务 器 ) 。 

* CPU: Intel Xeon E5-2640 (2.5GHz， 六 核 ) *2。 

硬盘 : 300G B*2。 

“内存: 96G/ 每 刀片 服务 器 。 

(2) 软件 环境 

宿主 机 : centOS 6.464 位 ， 内 核 版 本 2.6.32-431.17.1.el6.x86_64， 两 台 。 


(3) 网 络 环境 





BGP 机 房 ， 集 群 架构 (具体 可 以 参考 18.3.2 节 有 关 集 群 架 构 的 介绍 ) 。 


2. 问 题 定位 过 程 





首先 ， 看 下 当时 的 故障 报告 ， 如 表 22-3 所 示 。 











图 22-15 ”存储 整体 负载 情况 
表 22-3 故障 报告 


众多 玩家 无 法 登录 

数 徘徊 在 30 左右， " 
"yx WE 7 p. TE 他 设备 
不 允许 重复 登录 。 


故障 1 | 13:30 一 14:30 


故障 2 


故障 1 主要 是 游戏 代码 问题 ， 不 做 分 析 ， 重 点 看 下 和 虚拟 化 相关 的 故障 2。 




















与 开 服 前 波动 不 大 (22 ~ 45) 
的 阻挡 


多 玩家 游戏 卡 或 者 无 法 登 


法 ， 考虑 到 可 能 会 抢占 资源 的 问题 ， 
fi Web， 卡 机 的 情况 逐步 改善 列 一 个 数字 也 可 以 说 明 : 





运 维 团队 处 理 过 程 


今 查 服务 如 状态 ， 检 查 相关 日 志 . 因为 从 人 数 曲 线 上 看 


猜测 可 能 是 某 个 防火 墙 


险 查 发 现 20 f; Web 虚拟 机 服务 器 CPU 相继 跑 满 ， 并 


有 昌 出 现 无 法 登录 无 法 重启 的 情况 


运 维 团 队 的 处 理 过 程 如 下 : 
1. 配合 游戏 提供 方 检查 各 个 建议 项 ， 未 发 现 问 题 


2. 增加 Web 服务 器 从 20 台 到 40 台 ， 示 改善 
3. 基于 同属 一 个 资源 集群 内 的 服务 器 并 非 越 多 越 好 的 想 


尝试 将 20 台 减 为 8 


14:52 peu 人 数 3041, 20 台 
17:36 peu A 3,3150, 8 f 


IRS m DUIS LE 
;服务 器 非常 平稳 








从 虚拟 机 的 反应 以 及 日 志 来 看 ， 主 要 是 由 于 内 存 不 足 导致 ， 默 认 提 供 的 虚拟 机 都 会 开启 虚拟 内 存 (swap) ， 如 果 虚 拟 机 的 内 存 不 足 会 将 内 存 数据 存放 到 swap 空 间 里 ， 实 际 上 ， 间 接 导致 后 端 存储 压力 





标 升 ,这 里 原因 已 经 很 明显 了 ， 这 也 是 为 什么 将 前 端 Web 服 务 器 从 20 台 增加 到 40 台 没有 改善 ， 











台 减 少 到 8 台 Web 服 务 器 却 非常 平稳 的 原因 ， 存 储 的 I|OPS 也 从 7000 多 降 到 2800 左 右 。 





另外 ， 对 于 游戏 项 目 组 提供 的 说 法 ， 放 在 虚拟 机 上 的 都 是 一 些 Web 业 务 ， 读 的 比例 会 比较 大 ， 不 应 该 有 大 量 写 的 请 求 ， 但 是 ， 从 存储 上 可 以 看 到 读 写 比例 基本 在 4 : 6 和 5 : 5 之 间 ， 说 明 对 程序 和 业务 模 


型 的 分 析 没 有 到 位 ， 在 上 线 前 也 没有 测试 出 相关 问题 。 


3. 问 题 处 理 方法 





通过 以 上 分 析 ， 此 款 游戏 前 端 Web 业 务 需要 配置 较 高 的 内 存 以 及 高 性 能 的 磁盘 ， 将 写 较 多 的 业务 放 在 带 有 SSD 磁 盘 的 物理 机 上 ， 读 请 求 较 多 的 继续 放 在 虚拟 机 上 ， 同 时 将 虚拟 机 分 布 在 多 个 集群 上 ， 较 


好 的 解决 了 此 次 遇 到 的 问题 。 


4 问题 处 理 思路 总 结 








@ 因 为 一 个 集群 对 应 一 台 存 储 ， 并 不 是 说 前 端 Web 的 虚拟 机 越 多 越 好 ， 应 提前 告知 游戏 项 目 组 ， 让 其 在 申请 虚拟 机 时 要 加 一 条 说 明 (虚拟 机 平均 分 布 在 多 个 集群 中 ) 。 


@ 另 外 ， 对 集群 架构 做 一 些 改动 ， 将 两 台 甚 至 更 多 台 存 储 同 时 加 入 到 一 个 存储 池 ， 做 到 存储 压力 的 负载 均衡 。 





@@ 对 此 款 游 戏 没有 足够 多 的 重视 ， 没 有 相关 预案 和 专门 人 员 去 跟踪 。 


@ 业 务 上 线 前 都 需要 经 过 严格 的 测试 ， 一 般 虚 拟 化 项 目 上 线 都 要 经 过 第 19 章 介绍 的 流程 ， 必 须 严 格 遵 守 ， 此 案例 就 是 因为 没有 严格 的 遵循 流程 导致 的 。 























本 节 介 绍 了 一 个 生产 环境 非常 严重 的 事件 ， 印 象 非常 深刻 ， 主 要 的 原因 就 是 测试 的 不 够 ， 对 业务 了 解 不 够 ， 希 望 读者 在 虚拟 化 实施 中 能 够 引 以 为 戒 。 














224 ”其 他 生产 环境 问题 案例 





本 节 介 绍 一 些 在 生产 环境 中 积累 的 KVM 虚 拟 化 问题 案例 ， 有 些 案例 曾经 困扰 笔者 很 长 时 间 ， 或 者 造成 相当 严重 的 影响 ， 希 望 这 些 案例 能 为 读者 提供 一 些 借鉴 ， 在 生产 环境 中 能 够 避免 出 现 类 似 的 问题 ， 


或 者 为 读者 在 碰 到 类 似 的 问题 的 时 候 提供 思路 。 


22.41 ”共享 存储 集群 虚拟 机 迁移 故障 案例 


本 节 案 例 是 笔者 在 生产 环境 正式 部 署 的 第 一 个 虚拟 化 集群 ， 集 群 搭建 过 程 中 及 测试 时 碰 到 的 问题 。 


1. 虚 拟 机 不 能 迁 
(1) 虚拟 机 不 能 迁移 症状 现象 
集群 搭建 完成 之 后 ， 进 行 在 线 迁 移 测试 ， 发 现 迁 移 不 成 功 ， 具 体 的 环境 如 下 。 
“ 硬件 环境 : 10 台 宿主 机 ， 一 台 商 业 存 储 。 
' 软件 环境 : 所 有 的 宿主 机 系统 为 CentOS 6.1。 
“ 问题 现象 : 任何 宿主 机 上 的 虚拟 机 不 能 在 线 迁移 ， 执 行 迁移 操作 之 后 ， 提 示 迁 移 失 败 。 


(2) 虚拟 机 不 能 迁移 原因 分 析 思 路 











花 了 三 四 天 时 间 ， 从 以 下 几 个 方面 进行 对 比 测试 : 














“ 详细 分 析 系 统 日 志 、Libvirt 日 志 ， 只 能 看 到 迁移 失败 ， 没 有 提示 具体 原因 。 


“ 升级 宿主 机 系统 内 核 ， 故 障 依旧 。 





' 切换 虚拟 机 系统 ， 尝 试 Linux、Windows 系 统 的 虚拟 机 ， 故 障 依旧 。 
“ 因为 迁移 主要 是 内 存 迁移 ， 给 虚拟 机 配置 不 同 大 小 的 内 存 ， 故 障 依旧 。 
- 编译 更 新 Libvirt、QEMU 版 本 ， 故 障 依旧 。 


“ 抓 包 查看 ， 只 能 看 到 开始 迁移 ， 随 后 断 开 ， 排 除 是 网 络 层 的 原因 。 





至 此 ， 已 经 没有 更 好 的 思路 ， 然 后 在 红 帽 、Libvirt、QEMU 等 论坛 ， 邮 件 组 翻阅 ， 偶 然 看 到 有 人 描述 配置 在 线 迁 移 的 时 候 ， 需 要 能 够 在 宿主 机 直接 能 解析 主机 名 。 修 改 每 台 宿主 机 的 /etc/hosts 文 件 ， 
使 主机 名 和 1IP 能 够 解析 ， 再 尝试 在 线 迁 移 ， 问 题 得 到 解决 。 








2. 虚 拟 机 迁移 过 程 中 长 达 10 秒 不 能 ping 通 





还 是 这 个 集群 ， 虚 拟 机 终于 能 在 线 迁移 了 ， 但 是 在 迁移 过 程 中 发 现 ， 虚 拟 机 迁移 成 功 之 后 ， 大 约 10 秒 后 才能 ping 通 。 




















要 是 配置 网 桥 的 时 候 ， 需 要 再 添加 一 行 DELAY=0。 配 置 后 问题 得 到 解决 ， 虚 拟 机 迁移 的 时 候 














开始 以 为 是 arp 解 析 的 问题 ， 经 过 抓 包 查看 ， 发 现 不 是 arp 的 问题 。 然 后 也 是 在 红 由 的 知识 库 上 找到 原 
RETINE. 





Linux 系 统 网 桥 最 大 有 30 秒 的 延 时 ， 主 要 是 为 了 防止 路 由 环 路 ， 如 果 确 定 不 会 发 生路 由 环 路 ， 可 以 将 延 时 设置 为 0。 


Q.. 


后 续 的 CentOS 系 统 已 经 不 存在 这 个 问题 了 。 


3. 虚 拟 机 迁移 后 长 达 1 分 钟 TCP 服 务 不 通 














还 是 这 个 集群 ， 虚 拟 机 迁移 成 功 后， 发 现 网 络 层 通信 是 正常 的 ， 但 是 TCP 服 务 要 等 大 约 1 分 钟 之 后 才能 正常 ， 测试 ， 发 现 不 同 宿主 机 之 间 ， 不 同 虚 拟 机 之 间 迁 移 ， 都 有 类 似 的 问题 ， 时 间 长 短 不 一 ， 
最 长 的 时 候 ， 时 间 差 距 有 2 分 钟 。 




















这 个 问题 经 过 反复 排查 ， 最 后 定位 到 虚拟 机 的 时 间 上 ， 经 过 测试 发 现 ，TCP 服 务 不 通 的 时 间 ， 就 是 虚拟 机 之 间 时 间 的 差距 。 解 决 办 法 就 是 给 所 有 的 宿主 机 、 虚 拟 化 设置 NTP， 按 照 7.4 节 的 方法 设 定 内 核 























任何 虚拟 机 ， 如 VMware、Xen、HyperV、KVM ， 都 有 时 钟 漂移 的 问题 ， 主 要 是 因为 虚拟 机 的 时 钟 是 虚拟 出 来 的 ， 一 般 比 物理 机 要 走 得 快 一 点 。 随 着 虚拟 化 技术 的 发 展 ， 现 在 采用 的 都 是 半 虚 拟 化 的 精 
确 时 钟 ， 已 经 能 比较 好 地 解决 这 个 问题 。 











4. 问 题 总 结 























通过 第 一 个 生产 环境 集群 的 搭建 ， 收 获 很 多 ，Libvirt 的 在 线 迁移 需要 IP 和 主机 名 能 够 解析 ， 在 此 之 前 ， 一 直 以 为 迁移 直接 通过 IP 就 可 以 。 在 以 后 的 虚拟 化 集群 搭建 中 ， 都 做 了 以 下 3 步 的 checklist 检 查 : 











' 主机 和 IP 的 解析 。 
“ 配置 网 桥 DELAY 参 数 为 0。 
- 配置 NTP。 
22.4.2 ”宿主 机 异常 关机 后 虚拟 机 无 法 启动 案例 


1. 症 状 表现 描述 









































宿主 机 维护 的 时 候 ， 在 宿主 机 执行 reboot 重 启 命令 ， 大 约 有 10 分 钟 ， 宿 主机 一 直 未 重启 ， 然 后 强制 断 电 重 启 宿 主机 ， 发 现 有 几 台 虚拟 机 不 能 启动 ， 通 过 virsh start 命 令 启动 虚拟 机 ， 提 示 虚 拟 机 启动 失 
败 ,命令 行 显示 如 下 : 








virsh # start win7 
error: Failed to start domain win7 
error: Unable to read from monitor: Connection reset by peer 





宿主 机 系统 为 CentOS 6.x， 虚 拟 机 系统 Windows、Linux 都 有 。 











2. 原 因 及 处 理 过 程 











造成 这 个 问题 主要 是 以 下 原 








“ 宿主 机 执行 重启 操作 的 时 候 ， 会 把 在 线 的 虚拟 机 状态 保存 ， 以 方便 宿主 机 在 启动 的 时 候 能 够 快速 恢复 虚拟 机 状态 。 
“ 状态 保存 主要 是 虚拟 机 的 内 存 ， 如 果 虚 拟 机 的 内 存 比 较 大 ,保存 时 间 就 比较 长 。 


: 在 未 完成 内 存 保存 的 情况 下 ， 重 启 宿主 机 ， 会 造成 虚拟 机 再 次 启动 的 时 候 ， 虚 拟 机 保存 的 状态 文件 读 取 错误 ， 从 而 虚拟 机 不 能 启动 。 





虚拟 机 的 状态 保存 文件 路 径 是 /var/lib/libvirt/qemu/save/， 可 以 直接 查看 ， 命 令 如 下 : 




















ls -l /var/lib/libvirt/qemu/save/ 
ipea 1 root root 20868025 Feb 14 08:53 win7.save 








直接 删除 状态 保存 文件 ， 或 者 执行 managedsave-remove 命 令 ， 再 启动 虚拟 机 ， 问 题解 决 了 ， 命 令 如 下 : 











virsh # managedsave-remove win7 

Removed managedsave image for domain win7 
virsh # start win7 

Domain win7 started 





外 二 


本 案例 是 一 例 常见 案例 ， 执 行 宿主 机 重启 的 时 候 ， 虚 拟 机 最 好 能 先 关 机 ， 再 重启 宿主 机 ， 以 避免 出 现 相同 的 故障 。 


224.3 ”宿主 机 使 用 CentOS 5.6 系 统 问题 案例 


1. 间 题 显现 及 解决 过 程 


(1) 网 卡 驱动 不 定期 的 卡 死 




















最 早 在 生产 环境 使 用 KVM 虚 拟 化 的 时 候 ， 宿 主机 系统 版 本 是 CentOS 5.6， 当 时 主流 服务 器 的 网 卡 都 是 Broadcom 的 网 卡 ， 在 使 用 的 过 程 中 发 现 每 过 一 段 时 间 ， 网 卡 就 失去 响应 ， 解 决 办 法 是 重启 宿主 
机 ， 或 者 重新 卸载 网 卡 驱动 模块 ， 再 加 载 模块 就 恢复 正常 。 后 来 通过 升级 网 卡 驱 动 ， 问 题 有 显著 缓解 ， 随 着 宿主 机 的 系统 升级 到 CentOS 6， 这 个 问题 最 终 得 到 解决 。 



































(2) Libvirt 不 定时 崩溃 
还 是 CentOS 5.6 的 宿主 机 ， 经 常 出 现 Libvirt 启 动 虚拟 机 的 时 候 ， 发 生 崩 省 现象 。 经 过 升级 Libvirt 问 题 得 到 解决 。 


(3) Windows 虚 拟 机 中 断 占 有 过 高 



































还 是 CentOS 5.6 的 宿主 机 ，Windows 虚 拟 机 响应 很 慢 ， 查 看 CPU 利用 率 不 是 很 高 ， 后 来 ， 使 用 第 三 方 工具 ， 发 现 虚 拟 机 系统 中 断 占 有 非常 高 。 随 着 宿主 机 的 系统 升级 到 CentOS 6， 这 个 问题 最 终 得 到 
解决 。 


2. 总 结 

















开始 使 用 KVM 的 时 候 ， 主 要 的 精力 是 解决 稳定 性 问题 ，KVM 经 过 几 年 的 发 展 ， 现 在 已 经 非常 稳定 ， 在 生产 环境 中 ， 推 荐 使 用 比较 新 的 KVM 和 宿主 机 系统 版 本 ， 往 往 稳定 性 和 性 能 都 有 所 提升 。 


























2244 Windows 虚 拟 机 网 络 内 断 、 不 通 问题 案例 


1. 现 象 





2011 年 的 时 候 ， 在 生产 环境 中 ， 新 上 线 了 一 批 Windows 虚 拟 机 ， 宿 主机 系统 为 CentOS 6.1， 虚 拟 机 系统 为 Windows 2003 Server 32 位 中 文 版 。 上 线 之 后 发 现 ， 经 常会 发 生 网 络 闪 断 的 情况 ， 平 均 每 天 
发 生 1~3 次 。 网 卡 驱动 使 用 的 Virtio 发 生 闪 断 的 时 候 ， 并 不 是 网 卡 压力 最 大 的 时 候 ， 闪 断 时 间 基 本 上 是 随机 分 布 的 。 





后 来 ， 尝 试 将 部 分 虚拟 机 的 网 卡 驱动 更 换 为 Intel e1000， 闪 断 情况 消失 。 但 是 又 发 现 一 个 问题 ， 就 是 同一 宿主 机 上 ， 虚 拟 机 之 间 不 能 通讯 。 经 过 多 次 尝试 ， 解 决 办 法 是 将 虚拟 机 内 的 Intel e1000 网 卡 进 
行 升级 ， 问 题 得 到 解决 。 





2. 原 因 分 析 



































Intel e1000 是 全 虚拟 化 的 驱动 ， 完 全 由 软件 模拟 ，Virtio 是 半 虚 拟 化 的 驱动 ， 让 虚拟 机 和 虚拟 化 层 可 以 直接 交互 ， 提 高 通讯 效率 。 根 据 经 验 ，Windows 虚 拟 机 使 用 Virtio 驱 动 ， 一 直 有 网 卡 闪 断 的 情况 
发 生 ， 随 着 Virtio 驱 动 的 升级 ， 情 况 逐 步 在 改善 。 最 新 的 Virtio 驱 动 ， 笔 者 在 生产 环境 使 用 ， 已 经 有 两 个 多 月 没有 发 生 问题 。 















































但 是 ，Linux 系 统 使 用 Virtoio 驱 动 一 直 运 行 稳定 。Windows 系 统 、Linux 系 统 使 用 Virtio 的 硬盘 驱动 也 一 直 工 作 正 常 。 














随 着 KVM 版 本 的 升级 ， 发 现 不 用 升级 e1000 的 驱动 ， 也 不 影响 虚拟 机 直接 的 通讯 。 总 的 来 说 ， 随 着 KVM 技 术 的 不 断 完善 ， 在 生产 环境 的 问题 越 来 越 少 ， 越 来 越 稳定 。 目 前 ， 在 生产 环境 的 Windows 
2008 R2 Server 又 开始 逐步 使 用 Virtio 网 卡 ， 已 经 使 用 有 三 个 多 月 一 直 正 常 。 





























224.5 Windows 7 虚拟 机 只 能 使 用 2 个 CPU 案例 


1. 现 象 











IR] 





在 生产 环境 发 现 一 个 很 奇怪 的 现象 ， 无 论 配置 几 个 CPU， 在 Windows 7 的 系统 中 只 能 看 到 两 个 CPU。 如 图 22-16 所 示 ， 配 置 了 4 个 CPU， 在 虚拟 机 设备 管理 器 里 面 查 看 ， 处 理 器 也 是 4 个 , 但是， 如 
22-17 所 示 ， 在 任务 管理 器 中 只 能 看 到 两 个 ， 实 际 只 能 使 用 两 个 。 
































LE QEMU Virtual CPU version (cpuB4-rhel6] 
F gEMU Virtual CPU version (cpuB4i-rhelB) 


LE QEMU Virtual CPU version lcpuBdi-rhelB) 
LE QEMU Virtual CPU version (cpuB4-rhelB]J 


由 -一 磁盘 驱动 器 





图 22-16 设备 管理 器 处 理 器 情况 





图 22-17 任务 管理 器 只 能 看 到 2 个 CPU 





2. 原 因 及 解决 办 法 











通过 在 微软 网 站 查找 资料 ， 发 现 Windows 7 最 多 只 支持 两 个 CPU socket， 即 两 颗 物理 机 CPU， 但 是 ， 每 个 物理 CPU 内 可 以 有 多 个 core， 如 果 配 置 给 虚拟 机 的 是 模拟 多 颗 物 理 CPU， 那 么 Windows 7 系 
统 就 只 能 使 用 两 个 。 





























KVM 默 认 每 个 CPU 模 拟 一 个 socket， 必 须 修改 虚拟 机 CPU 的 拓扑 ， 才 能 使 用 超过 一 个 CPU。 














解决 办 法 是 修改 为 一 个 socket 内 有 多 个 Core， 如 图 22-18 所 示 。 











Topology 
** Manually set CPU topology 


Sockets: |1 


Cores: 





图 22-18  virt-manager CPU 配置 


xm 配置 文件 如 下 : 


«topology sockets='1' cores-'4' threads-'1'/» 





问题 得 到 解决 ， 在 虚拟 机 系统 中 可 以 看 到 4 个 CPU， 如 图 22-19 所 示 。 











224.6 ”生产 环境 非常 奇怪 的 一 个 案例 


1. 现 象 




















生产 环境 一 台 宿 主机 ， 已 经 连续 稳定 运行 几 个 月 ， 突 然 出 现 CPU 间 歇 的 压力 非常 高 的 现象 ， 并 且 非 常 有 规律 ， 如 图 22-20 所 示 ， 每 23 分 钟 出 现 一 次 ， 每 次 持续 将 近 2 分 钟 。 并 且 出 现 问题 的 时 候 ， 宿 主机 
及 宿主 机 上 所 有 的 虚拟 机 都 出 现 CPU 利 用 率 非 常 高 的 情况 ， 出 现 问题 的 时 候 对 业务 影响 非常 严重 。 






























































ETindors 任务 管理 只 
NEGO 选项 0) 查看 0 帮助 0 


应 用 程序 | 进程 | 服务 。 ”性 能 | 联网 | 用 户 | 
cru 使 用 记录 


开机 时 间 0:00:00:18 
zs (GB) 24 1 





图 22-19 ”任务 管理 器 可 以 看 到 4 个 CPU 


80 s 
ws 
40 * 
205 
os 


图 22-20 CPU 间歇 性 高 压力 
2. 问 题解 决 过 各 


因为 非常 有 规律 ， 首 先 ， 怀 疑 业 务 做 了 定时 任务 ， 详 细 排 查 了 宿 3 





机 、 虚 拟 机 的 各 项 定时 任务 ， 未 发 现 异常 。 
然后 ， 怀 疑 业务 是 否 有 程序 








局 洞 ， 请 业务 排查 日 志和 代码 ， 经 过 一 天 的 排查 ， 未 发 现 问题 。 排 查 了 宿 3 








机 、 虚 拟 机 各 种 日 志 ， 未 发 现 异常 ， 至 此 陷入 困境 。 











问题 出 现 的 第 三 天 ， 收 到 带 外 管理 卡 的 内 存 报警 ， 如 图 22-21 所 示 。 于 是 ， 怀 疑 内 存 引起 的 故障 ， 将 虚拟 机 迁移 到 备 机 ， 更 换 内 存 ， 再 迁移 

















回来 ， 问 题 得 到 解决 。 








22-21 管理 卡 健康 情况 

















这 个 问题 是 在 生产 环境 碰 到 最 奇特 的 问题 之 一 ， 从 现象 看 ， 很 可 能 是 软件 问题 ， 一 直 在 排查 软件 原因 ， 直 到 硬件 故障 报警 出 来 ， 才 怀疑 到 硬件 。 


外 二 


宿主 机 因为 运行 多 台 虚 拟 机 ， 所 以 ， 宿 主机 的 稳定 性 要 求 非常 高 ， 新 一 代 服 务 器 的 管理 卡 报警 功能 非常 强大 ， 充 分 利用 管理 卡 的 报警 功能 ， 有 利于 硬件 问题 尽早 被 发 现 。 


2247 ”U 盘 在 虚拟 机 上 挂 载 问题 案例 
































KVM 的 USB 设 备 Passthrough 是 将 宿主 机 的 USB 接 口 直接 给 虚拟 机 使 用 ，USB 接 口上 的 设备 也 就 直接 可 以 在 虚拟 机 上 使 用 。 在 准备 将 U 盘 给 虚拟 机 使 用 的 时 候 ， 发 现 不 同系 统 的 宿主 机 ， 现 象 竟然 不 一 
样 。 



































1.USB 设 备 Passthrough 操 作 方法 

生产 环境 如 下 。 
“ 宿主 机 1: 系统 CentOS 6.664 位 ， 内 核 版 本 2.6.32-504.1.3.el6。 
“ 宿主 机 2: 系统 Fedora 21， 内 核 版 本 3.17.2-300.fc21.x86_64。 
“虚拟 机 : Windows 764 位 。 

USB 设 备 Passthrough 配 置 方法 如 下 。 


@ 通 过 lsub 命 令 查看 有 哪些 USB 口 可 供 使 用 ， 命 令 如 下 : 





lsusb 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


Bus 006 Device 002: ID 03f0:1027 Hewlett-Packard Virtual keyboard and mouse 
Bus 001 Device 002: ID 058f:6387 Alcor Micro Corp. Flash Drive 
Tue Dec 16 12:45:21 CST 2014 








或 者 也 可 以 通过 virt-manager 查 看 ， 如 图 22-22 所 示 。 

















@ 将 需要 的 USB 接 口 分 配给 虚拟 机 单独 使 用 ， 如 图 22-23 所 示 。 























xm 配置 文件 如 下 : 





<hostdev mode-'subsystem' type-'usb' managed-'yes'» 

«source» 
«vendor id-'0x058f'/» 
«product id-'0x6387'/» 
«address bus-'l' device-'2'/» 

</source> 

«alias name-'hostdev0'/» 

«/hostdev» 





2. 问 题 现象 





在 测试 过 程 中 ， 发 现 一 个 很 奇怪 的 现象 ， 在 CentOS 6 的 宿主 机 上 的 Windows7 中 ，U 盘 不 能 识别 ， 如 图 22-24 所 示 。 


Z Graphics 
gig Sound 
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Add New Virtual Hardware 


一 — USB Device 
etwo! 


Please indicate what physical device 
to connect to the virtual machine. 


Host Device: 





001:001 Linux 2.6.32-431.1.2.0.1.e16.x86 64 ehci_hcd EHCI Host Contro 
001:002 Generic Mass Storage 

002:001 Linux 2.6.32-431.1.2.0.1.616.x86 64 uhci_hcd UHCI Host Contra 
003:001 Linux 2.6.32-431.1.2.0.1.616.x86 64 uhci_hcd UHCI Host Contra 
004:001 Linux 2.6.32-431.1.2.0.1.616.x86 64 uhci_hcd UHCI Host Contra 
005:001 Linux 2.6.32-431.1.2.0.1.616.x86 64 uhci_hcd UHCI Host Contra 
006:001 Linux 2.6.32-431.1.2.0.1.e16.x86 64 uhci_hcd UHCI Host Contra 
006:002 HP Virtual Keyboard 














图 22-22 ”通过 virt-manager 查 看 可 用 USB 端 口 


Physical USB Device 
Device: 001:002 Generic Mass Storage 


Memory 

Boot Options 
IDE Disk 1 
IDE CDROM 1 
NIC :89:58:9d 
Tablet 

Mouse 

Display VNC 
Serial 1 

USB 058f:6387 
Video 
Controller usb 
Controller IDE 





图 22-23 ”通过 virt-managet 分 配 USB 端 口 给 虚拟 机 











但 是 ， 如 果 是 CentOS 6 的 虚拟 机 ，U 盘 就 可 以 正常 使 用 。 开 始 以 为 是 Windows 7 驱动 的 问题 ， 但 是 尝试 了 各 种 驱动 ， 问 题 依旧 。 

















后 来 ， 尝 试 了 在 Fedora21 上 的 Windows 7 虚拟 机 ，U 盘 插 上 去 就 可 以 直接 使 用 ， 如 图 22-25 所 示 。 











lw) mmc 
PO] 时 Intel(R) 82371SB PCI to USB Universal Host Controller 


—M NEC USB Hub 


= § USB Root Hub 
-i USB 大 容量 存储 设备 


图 22-24 Windows 系 统 USB 设 备 出 现 黄色 感叹 号 
































22-25 Fedora21.EU ÆT fi 4-3 3] 


甚至 不 要 做 任何 配置 ， 应 该 和 Fedora 上 的 QEMU 版 本 有 关系 ， 新 的 版 本 做 了 改进 。 读 者 如 果 有 需要 给 虚拟 机 接 上 U 盘 ， 请 注意 这 个 问题 。 


224.8 HPILO4 固 件 Bug 引 起 宿主 机 重启 案例 





























在 生产 环境 发 生 一 次 宿主 机 异常 重启 ， 经 过 排查 发 现 是 宿主 机 内 核 朋 省， 引起 宿主 机 重启 。 宿 主机 品牌 是 HP GEN8380， 系 统 是 CentOS 6.6， 默 认 开 启 了 内 核 自动 转 存 。 





























内 核 朋 省 时 日 志文 件 和 转 存 的 内 存 文件 是 放 在 /var/crash 目 录 下 的 ， 有 个 精确 到 秒 的 以 骨 溃 时 间 命 名 的 






























































查看 日 志文 件 ， 可 以 清楚 地 看 到 内 核 衣 省 时 的 情况 ， 显 示 如 下 : 


3*K, 


录 下 有 两 个 文件 ， 一 个 是 崩溃 时 内 存 的 一 个 转 存 ， 另 一 个 是 文本 的 











志文 件 。 





<0>Kernel panic - not syncing: An NMI occurred. Depending on your system the 
reason for the NMI is logged in any one of the following resources: 
<0>1. Integrated Management Log (IML) 

«022. OA Syslog 
«023. OA Forward Progress Log 
«024. iLO Event Log 
«4»Pid: 0, comm: swapper Not tainted 2.6.32-504.e16.x86 64 #1 
«A»Clocksource tsc unstable (delta = -34359715026 ns). Enable clocksource 
failover by adding clocksource failover kernel parameter. 





从 日 志 可 以 清楚 看 到 ， 主 要 是 NMI 发 生 ， 造 成 内 核 朋 溃 。 
9. 


NMI 是 系统 中 标准 的 中 断 屏 蔽 技术 中 不 能 被 忽略 的 硬件 中 断 ， 通 常 是 不 可 恢复 的 硬件 错误 信和 号 。 


通过 查阅 资料 ， 发 现 HP GEN8 在 Linux、VMWare、Windows 上 都 有 类 似 的 问题 ， 在 HP 官网 文档 讲 得 很 清楚 ， 链 接 如 下 : 


http://h20566.www2.hp.com/hpsc/doc/public/displaysp4ts.o0id=5268290&docld=emr_na-c04332584-3&docLocale=en_US。 


HP GEN8 ILO4 固 件 版 本 1.30、1.32、1.40、1.50 的 时 候 会 触发 NMI 问 题 ， 将 ILO 固 件 刷新 到 最 新 的 2.04 时 ， 问 题 得 到 解决 。 


Q- 示 


应 定期 关注 宿主 机 硬件 厂商 固件 更 新 情况 ， 如 果 有 重要 固件 更 新 ， 应 及 时 更 新 。 








某 机 房 断 电 40 分 钟 ， 电 力 恢复 后 ， 发 现 宿主 机 和 虚拟 机 故障 ， 解 决 过 程 记录 如 下 。 





























发 现 所 有 IBM 3650M4 服 务 器 的 宿主 机 不 能 正常 启动 ， 通 过 带 外 管理 卡 的 远程 桌面 重 定向 ， 看 到 如 图 22-26 所 示 的 提示 。 


Critical Message 


m 


First you might need 
to press «Enter? to 
get the input uindou. 
Then press the desired 
key(s) in response to 
the critical message 
displayed above and 
then press «Enter? to 
commit your input. 


Enter Your Input Here: 





图 22-26 IBMJR 4-35 3E 




















重启 服务 器 ， 现 象 一 样 ， 仔 细 查 看 说 明 ， 发 现 提 示 的 信息 是 ，“RAID 卡 电池 用 电 耗 尽 ， 缓 存 的 数据 丢失 。 " 





按照 提示 操作 如 下 : 


按 Enter 键 ， 然 后 输入 desired， 再 按 Enter 键 ， 然 后 按 Esc 键 退出 ， 系 统 正常 启动 。 




















那么 如 何 避 免 再 出 现 类 似 的 情况 呢 ， 如 果 不 解决 ， 下 次 服务 器 突然 断 电 ， 系 统 重启 后 还 是 会 卡 在 这 个 界面 。 通 过 查阅 资料 ， 发 现 有 办 法 可 以 绕 过 提示 ， 操 作 方法 如 下 。 
































@ 在 系统 下 安装 RAID 卡 的 管理 工具 ， 安 装 程序 可 以 在 Lsi 官 网 下 载 ， 命 令 如 下 : 








# 安装 MegaCli 
unzip ibm utl sraidmr megacli-8.00.48 linux 32-64.zip 

cd linux/ ^ T B z 

rpm -ivh Lib Utils-1.00-09.noarch.rpm MegaCli-8.00.48-1.1386.rpm 





@ 查 看 RAID 卡 设置 ， 断 电 后 是 否 提示 如 下 : 








/opt/MegaRAID/MegaCli /MegaCli64 -AdpBios -dsply -a0 
BIOS on Adapter 0 is Enabled. 

BIOS will Stop on error. 

#RRAID 卡 会 提示 


@ 修 改 RAID 设 置 ， 命 令 如 下 : 


/opt/MegaRAID/MegaCli /MegaCli64 -AdpBios -BE -a0 
BIOS is set to Bypass Error on Adapter 0. 


几 房 断 电 引起 的 虚拟 机 问题 

















宿主 机 重启 系统 后 发 现 几 台 虚拟 机 无 法 连接 ， 通 过 VNC 登 录 后 看 到 如 图 22-27 所 示 的 提示 。 
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图 22-27 虚拟 机 启动 报错 
引起 这 种 问题 是 由 于 突然 断 电 造成 虚拟 机 文件 系统 不 一 致 ， 解 决 方法 是 加 载 并 安装 镜像 进入 救援 模式 ， 进 行文 件 系统 检查 。 


编辑 虚拟 机 xml， 加 载 iso 光 驱 ， 命 令 如 下 : 


«disk type-'file' device='cdrom'> 
Xdriver name-'gemu' type-'raw' cache-'none'/» 
«source file-'/home/CentOS-6.3.x86 64-DVD.iso'/» 
«target dev-'hdb' bus-'ide'/» zs 
«readonly/» 

«/disk» 


编辑 虚拟 机 的 启动 方式 ， 在 os 的 标签 处 添加 cdrom， 并 放 在 第 一 项 ， 命 令 如 下 : 


«os» 
Xboot dev-'cdrom'/» 
<boot dev-'hd'/» 
«/os» 


激活 vg， 强 制 检查 文件 系统 ， 命 令 如 下 : 


vgchange -ay centos6-vg # 激活 LV 
fsck -f /dev/centos6-vg/root # 检查 文件 系统 
reboot # 重 启 系统 ， 系 统 启动 正常 


Oez 


本 案例 记录 的 问题 ， 尤 其 是 虚拟 机 断 电 不 能 启动 的 问题 ， 通 过 加 载 iso 镜 像 修 复 是 一 个 常规 解决 方法 。 








这 个 问题 曾经 也 困扰 了 笔者 一 段 时 间 ， 当 时 因为 虚拟 机 压力 大 ， 配 置 在 线 虚拟 机 的 CPU 绑 定 ， 强 制 vCPU 和 物理 机 CPU 一 对 一 的 绑 定 ， 命 令 如 下 : 








virsh vcpupin 21 0 28 
virsh vopupin 21 1 29 
virsh vcpupin 21 2 30 
virsh vcpupin 21 3 31 


查看 一 下 ， 并 没有 产生 效果 ， 提 示 如 下 : 


virsh vcpuinfo 21 

VCPU: 0 

CPU: 31 

State: running 

CPU time: 10559.2s 

CPU-Aftfinity; “eee YYYYYY 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


查看 xml 文 件 ， 配 置 是 写 到 xml 文 件 了 ， 提 示 如 下 : 


virsh # dumpxml 21 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 
«cputune» mn 
«vcpupin vcpu-'0' cpuset-'28'/» 
«vcpupin vcpu-'l' cpuset-'29'/» 
«vcpupin vcpu-'2' cpuset-'30'/» 
«vcpupin vcpu-'3' cpuset-'31'/» 
«emulatorpin cpuset-'26-31'/» 
X/cputune» 

















然后 将 虚拟 机 重启 ， 可 以 看 到 配置 生效 了 ， 提 示 如 下 : 


virsh vcpuinfo 22 
VCPU: U 


CPU: 28 

State: running 

CPU time: 1.8s 

GBPU-Affiniby; --------------------------- yma 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 


但 是 ， 跑 几 分 钟 后 ， 发 现 又 不 按照 配置 的 对 应 了 ， 提 示 如 下 : 





virsh vcpuinfo 22 

VCPU: 0 

CPU: 8 

State: running 

CPU time: 81.4s 

CPU Affinity: -——————- YYYYYYYY — — — YYYYYYYY 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15347/OEBPS/Text/... 





然后 ， 升 级 了 一 下 宿主 机 系统 ， 命 令 如 下 : 








yum update -y 





再 去 做 vcpupin 的 绑 定 ， 观 察 了 4 个 多 小 时 ， 发 现 是 一 直 生 效 的 。 












































笔者 还 在 生产 环境 碰 到 过 ， 使 用 CGroup 做 CPU 资源 限制 ， 造 成 宿主 机 CPU 利用 率 很 高 的 情况 ， 也 是 通过 升级 系统 解决 问题 。 读 者 碰 到 类 似 的 情况 ， 可 以 借鉴 。 


22441 ”生产 环境 存储 故障 导致 50 个 虚拟 机 丢失 案例 














这 个 案例 是 笔者 在 生产 环境 碰 到 的 最 严重 的 事故 之 一 ， 直 接 导 致 50 多 个 虚拟 机 丢失 。 




















(1) 案例 环境 

: 5 台 计 算 节点 服务 器 。 

: 一 台 商 业 存 储 ，12 块 1T 的 磁盘 ，11 块 配置 RAID5， 另 外 一 块 为 热 备 瘟 。 

(2) 故障 的 过 程 

“ 一 块 磁盘 故障 。 

“ 按照 RAID5 的 机 制 ， 热 备 盘 加 入 到 阵列 组 ， 并 开始 重建 ， 这 时 候 就 有 大 量 的 磁盘 读 / 写 。 

“ 不 到 20 分 钟 ， 另 外 一 块 磁盘 故障 ， 重 建 没有 完成 。RAID5 的 机 制 同时 只 能 允许 一 块 磁盘 故障 ， 这 时 候 已 经 有 两 块 磁盘 故障 ， 所 以 数据 丢失 。 
(3) 故障 处 理 办 法 

“ 因为 所 有 虚拟 机 配置 文件 做 了 异步 备份 ， 按 照 配置 文件 重建 新 的 虚拟 机 。 

“ 联系 各 个 业务 重新 部 署 业 务 ， 恢 复业 务 数据 ， 整 个 过 程 持续 了 30 多 小 时 。 

(4) 故障 影响 


" 大 部 分 业务 中 断 20~30 小 时 ; 





“ 部 分 业务 数据 丢失 5~20 小 时 ， 部 分 业务 数据 丢失 3 个 月 。 





(5) 总 结 反思 及 应 对 方案 
应 该 考虑 各 种 极端 情况 ， 做 好 如 下 监控 
“ 所 有 线 上 存储 ， 磁 盘 监控 SMART 信息 ， 有 10 个 以 上 的 坏 块 就 报警 。 
“ 增加 备份 存储 ， 并 配置 异步 备份 ， 备 份 级 别 做 到 5 分 钟 。 
“ 生产 环境 所 有 使 用 RAID 的 存储 ， 全 部 在 维护 时 间 修 改 为 RAID10 或 者 RAID6。 


“ 提醒 业务 做 好 数据 备份 。 


22.4.12 ”生产 环境 Ubuntu 虚 拟 机 故障 问题 案例 

















这 两 个 案例 是 在 生产 环境 实施 一 款 游戏 虚拟 化 碰 到 的 问题 ， 虚 拟 机 系统 为 Ubuntu12.04， 使 用 这 个 版 本 主要 是 因为 游戏 在 这 个 版 本 开发 ， 要 求 必须 使 用 这 个 版 本 。 

















1. 案 例 一 : 虚拟 机 重启 后 卡 住 





(1) 问题 现象 









































制作 镜像 的 时 候 ， 虚 拟 机 分 区 使 用 的 是 自动 分 区 ， 自 动 分 区 使 用 的 |vm 分 区 格式 。 虚 拟 机 镜像 制作 完成 后 ， 将 业务 程序 部 署 上 去 测试 ， 运 行 很 正常 。 决 定 在 生产 环境 部 署 测 试 ， 测 试 的 时 候 发 现 一 个 问 
题 ， 虚 拟 机 重启 的 时 候 ， 经 常会 检查 文件 系统 ， 并 且 检 查 的 时 候 会 卡 住 ， 如 图 22-28 所 示 ， 开 始 的 时 候 以 为 是 虚拟 机 非 正常 关机 造成 的 ， 但 是 ， 测 试 了 几 次 从 虚拟 机 内 部 正常 关机 ， 或 者 直接 从 虚拟 机 内 部 
重启 虚拟 机 ， 依 然 有 这 样 的 现象 ， 并 且 几 率 非常 高 。 
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(2) 问题 解决 过 程 


尝试 进入 单 用 模式 ， 
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然后 手工 检查 文件 系统 ， 第 二 次 重启 虚拟 机 就 能 启动 ， 但 是 再 重启 就 又 卡 住 了 。 
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图 22-28 WA LARA TEC 


进入 系统 后 ， 检 查 系统 日 志 ， 
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devices 


未 发 现 异 常 。 开 始 怀疑 是 系统 安装 的 问题 ， 


Opts: 


done. 


反复 重 装 系统 数 次 ， 问 题 


依旧 。 后 来 又 怀疑 是 安装 镜像 的 问题 ， 从 官网 下 载 镜像 ， 验 证 MD5 进 行 安装 ， 问 题 依 旧 。 最 后 ， 怀 疑 是 分 区 的 问题 ， 测 试 不 使 用 vm 分 区 ， 使 用 手工 分 区 ，vda1 为 /boot 分 区 200MB，vda2 为 swap 分 区 


4GB，vda3 为 根 分 区 ， 使 用 剩余 空间 ， 如 图 22-29 所 示 。 


经 过 20 次 重启 ， 


基本 上 只 会 发 生 一 次 检查 文件 系统 的 问题 ， 问 题解 决 。 





| Ve QEMU (ubuntu) - VNC Viewer 


[!!] Partition disks 


This is an overview of your currently configured partitions and mount points. Select a 
partition to modifu its settings (file sustem, mount point, etc.), a free space to create 
partitions, or a device to initialize its partition table. 


Guided partitioning 
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图 22-29 虚拟 机 磁盘 分 区 

















(1) 问题 现象 与 Ubuntu 内 核 朋 溃 自 动 转 存 及 重启 配置 























还 是 这 个 项 目 ， 在 生产 环境 逐步 开始 实施 ， 业 务 正式 上 线 后 ， 发 现 一 个 问题 ， 几 乎 每 台 虚 拟 机 每 个 月 会 发 生 内 核 才 省 一 次 。 因 为 有 几 人 台 虚 拟 机 内 存 压 力 很 大 ， 开 始 怀疑 是 内 存 原因 ， 调 整 了 内 存 ， 问 题 
依旧 。 实 际 虚 拟 机 的 CPU、 网 络 、 磁 盘 压 力 均 不 大 ， 于 是 ， 决 定 查看 系统 的 内 核 计 溃 日 志 ， 但 是 默认 Ubuntu12.04 没 有 配置 内 核 计 省 自动 重启 及 转 存 ， 发 生 内 核 计 省 的 时 候 ， 没 有 core dump 文 件 去 分 析 ， 
为 了 方便 查找 内 核 山 溃 原因 ， 需 要 将 内 核 朋 省 自动 重启 配置 及 内 核 转 存 配置 起 来 ， 配 置 步骤 如 下 : 























































































































1) 配置 内 核 崩 演 自 动 重启 。 配 置 /etc/sysctl.conf 文 件 ， 添 加 kernel.panic 到 内 核 参数 ，10 为 内 核 衣 演 10 秒 后 ， 自 动 重启 系统 ， 命 令 显 示 如 下 : 








vi /etc/sysctl.conf 
kernel.panic = 10 














2) 验证 自动 重启 机 制 是 否 生 效 。 验 证 自动 重启 机 制 ， 需 要 配置 sysrq，sysrq 是 专门 用 于 内 核 调试 的 一 种 机 制 ， 打 开 这 个 参数 ， 就 可 以 模拟 内 核 调 溃 ， 添 加 kernel.sysrq 到 内 核 参数 ， 参 数 为 1 时 生效 ， 命 
令 显 示 如 下 : 

















vi /etc/sysctl.conf 
kernel.sysrq = 1 


运行 sysctl-p 命 令 ， 使 配置 的 参数 生效 ， 或 者 重启 系统 ， 命 令 如 下 : 





sysctl -p /etc/sysctl.conf 
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检查 sysrq 配 置 ， 如 图 22-31， 查 看 配置 是 否 为 1。 
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root&ubuntu:^& cat /proc/sus/kernel/Z/panic 


10 
root@ubuntu:™# 





图 22-30 “内核 panic 参 数 配置 查看 


Js/kernel/susrdg 





图 22-31 ”内 核 sysrq 参 数 配 置 


模拟 系统 内 核 崩 演 ， 同 时 按 Alt+SysRq+C 组 合 键 , 或 者 运行 如 下 命令 : 





echo c >/proc/sysrq 
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22-32， 说 明 配置 生效 。 
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3) 配置 内 核 转 存 。 新 装 的 系统 需要 升级 下 ， 否 则 ， 不 能 通过 apt-get 安 装 软件 ， 命 令 行 显示 如 下 : 


apt-get update 





安装 内 核 转 存 组 件 ， 命 令 如 下 : 





sudo apt-get install linux-crashdump 








查看 /proc/cmdline 内 存 ， 检 查 内 核 转 存 是 否 生效 ， 如 果 有 crashkernel 关 键 字 ， 如 图 22-32 所 示 ， 说 明生 效 。 
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测试 ， 模 拟 系统 内 核 崩 演 ， 同 时 按 Alt+SysRq+C 三 个 键 , 或 者 运行 如 下 命令 : 





echo c >/proc/sysrq 
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图 22-32 BREITE *S 





图 22-33 内核 转 存 配置 





但 是 ， 发 现 系统 崩溃 ， 并 卡 住 ， 没 有 发 送 转 存 ， 也 没有 重启 ， 如 图 22-34 所 示 。 
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通过 查找 资料 ， 发 生 这 样 的 情况 ， 可 能 和 core dump 内 存 配置 不 够 有 关系 ， 于 是 ， 修 改 core dum 内 存 配置 ， 编 辑 /etc/grub.d 下 的 10 linux 文 件 。 
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修改 内 核 转 存 最 大 文件 大 小 为 512MB， 如 








22-35, 


* add cr ernel option it we 
usr/bin/ ma dumpfile" 





422-35 











重新 使 用 grub-mkconfig 命 令 生成 grub.cfg， 如 图 22-36 所 示 。 
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图 22-36 ”重新 生成 grub.cfg 文 件 








再 测试 ,成功 ， 如 图 22-37 所 示 。 
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图 2 


2-37 ”内 核 转 存 生效 





于 是 ， 线 上 所 有 的 虚拟 机 都 配置 了 内 核 崩 省 自动 重启 及 转 存 ， 但 是 ， 奇 怪 的 是 ， 发 生 内核 朋 省 的 时 候 ， 依 旧 卡 住 ， 并 没有 转 存 内 存 及 自动 重启 。 





(2) 问题 解决 过 程 





从 现象 看 起 来 很 有 可 能 是 虚拟 机 内 核 和 宿主 机 兼容 性 的 问题 ， 宿 主机 系统 是 CentOS 6.5, 

















过 咨询 相同 版 本 的 生产 环境 ， 及 对 比 同 一 个 项 目的 物理 机 生产 环境 ， 大 部 分 使 用 的 是 3.8 的 内 核 ， 并 1 











出 现 内 核 朋 省 问题 ， 故 障 解 决 。 


(3) 问题 总 结 














大 部 分 生产 环境 使 用 的 是 CentOS 或 者 Windows 系 统 ， 长 久 以 来 笔者 养 成 的 习惯 就 是 上 线 
候 ， 笔 者 也 是 将 内 核 和 系统 升级 到 最 新 ， 结 果 发 生 了 内 核 兼 容 性 问题 。 导 臻 发生 这 个 问题 的 原 
支持 版 本 及 内 核 。 








先 尝 试 将 宿主 机 系统 升级 到 CentOS 6.6， 内 核 升级 到 最 新 ， 问 题 依旧 。 接 下 来 就 剩 下 改造 虚拟 机 的 内 核 了 。 经 
经 过 两 个 月 测试 ， 再 没有 











因应 该 是 Ubuntu 系统 比较 激进 ， 升 级 过 了 





目 工 作 稳定 ， 于 是 决定 将 虚拟 机 内 核 更 换 为 3.8。 在 维护 时 将 内 核 更 : 


虚拟 机 的 时 候 ， 将 虚拟 机 系统 升级 到 最 新 ， 














换 为 3.8 后 ， 











FF 频繁 又 没有 充分 测试 。 所 以 ,和 





EF 产 环境 使 











因为 最 新 系统 会 做 许多 优化 和 改进 。Ubuntu 这 个 系统 制作 镜像 





的 时 




















Ubuntu， 应 尽量 使 
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225 ”本 章 小 结 


本 章 介绍 了 笔者 实施 虚拟 化 以 来 碰 到 几 个 典型 问题 案例 ， 这 些 案例 共同 的 特点 是 都 给 笔者 带 来 深刻 的 印象 ， 问 题 的 解决 消耗 了 笔者 大 量 的 时 间 和 精力 ， 希 望 这 些 案例 的 分 享 能 够 使 读者 在 虚拟 化 实践 时 
碰 到 类 似 的 问题 有 所 提示 ， 也 欢迎 读者 在 虚拟 化 实践 中 碰 到 问题 ， 通 过 笔者 的 微 信 订阅 号 “KVM 虚 拟 化 实践 ”一 起 讨论 。 





附录 笔者 推荐 的 KVM 学 习 资料 


1. 以 下 资料 建议 读者 熟练 掌握 ， 反 复 研 究 


@RedHat 官 网 资料 ， 虚 拟 化 相关 章节 ， 链 接 如 下 : 





https:// access.redhat.com/site/documentation/Red Hat Enterprise Linux/ 





虚拟 化 相关 的 章节 建议 熟练 掌握 ， 在 RHEL 有 新 版 本 发 布 的 时 候 ， 也 建议 阅读 下 新 特性 。 


(Virtualization Administration Guide) (虚拟 化 管理 指南 ) 





(Virtualization Getting Started Guide) (虚拟 机 化 起 步 指南 ) 


(Virtualization Host Configuration and Guest Installation Guide) (虚拟 化 宿主 机 和 虚拟 机 安装 指南 ) 








《Virtualization Security Guide》 (虚拟 化 安全 指南 ) 


(Virtualization Tuning and Optimization Guide) (虚拟 化 性 能 调 优 ) 





Q@Libvirt 官 网 官方 文档 。Libvirt 是 kvm 虚 拟 化 的 管理 工具 ， 官 方 文档 非常 详细 ， 链 接 如 下 : 





http:// www.libvirt.org/docs.html 








@guestfish 官 网 官方 文档 。guestfish 是 一 套 kvm 虚 拟 化 的 镜像 管理 工具 ， 可 以 对 镜像 进行 非常 方便 的 管理 ， 链 接地 址 如 下 : 








http:// libguestfs.org 





2. 参 考 阅读 文档 


Q@KVM 官 网 文档 ， 链 接 如 下 : 





http:// www.linux-kvm.org/page/Main Page 





@QEMU 官 网 文档 ， 链 接 如 下 : 





http:// www.qemu.org 





3.KVM 相 关 软 件 的 更 新 新 特性 发 布 页 面 


Q@Libvirt 更 新 页 面 链 接 如 下 : 





http:// www.libvirt.org/news.html 





@QEMU 更 新 页 面 链接 如 下 : 





http:// wiki.gemu.org/Download 





@Fedora 新 版 本 特性 链接 如 下 : 





https:// fedoraproject.org/wiki/Features 





4 两 个 非常 不 错 的 网 站 


@ 虚 拟 机 技术 ， 链 接 如 下 : 





http:// virtualizationreview.com/home.aspx 





GIBM developerworks 虚 拟 化 专题 ， 链 接 如 下 : 





http:// www.ibm.com/developerworks/cn/linux/theme/virtualization/index.html 





5. 虚 拟 化 管理 软件 


虚拟 化 管理 软件 有 如 下 几 种 。 


“ PVE， 其 官网 为 http://pve.proxmox.com。 

- OVirt， 其 官网 为 http://www.ovirt.org， 中 国 社区 http://ovirt-china.org。 
* Cloudstack， 其 官网 为 http://cloudstack.apache.org。 

- OpenStack， 其 官网 为 www.openstack.org， 中 国 社区 www.openstack.cn。 
“Convirt， 其 官网 为 www.convirture.com。 


Puppet 虚拟 化 组 件 ， 其 官网 为 https://github.com/catrlasouza/puppet-virt。 


